論文の概要: Sequential Decision-Making for Active Object Detection from Hand
- arxiv url: http://arxiv.org/abs/2110.11524v1
- Date: Thu, 21 Oct 2021 23:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:17:20.613341
- Title: Sequential Decision-Making for Active Object Detection from Hand
- Title(参考訳): 手指からの能動物体検出のための逐次意思決定
- Authors: Qichen Fu, Xingyu Liu, Kris M. Kitani
- Abstract要約: 手動オブジェクトの相互作用を理解する重要な要素は、アクティブオブジェクトを識別する能力である。
我々は,手の位置と外観を条件とした逐次的意思決定プロセスとして,能動物体検出手法を構築した。
このアプローチの主な革新は、Box Fieldと呼ばれる内部表現を使用するアクティブオブジェクト検出ポリシーの設計です。
- 参考スコア(独自算出の注目度): 43.839322860501596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key component of understanding hand-object interactions is the ability to
identify the active object -- the object that is being manipulated by the human
hand -- despite the occlusion induced by hand-object interactions. Based on the
observation that hand appearance is a strong indicator of the location and size
of the active object, we set up our active object detection method as a
sequential decision-making process that is conditioned on the location and
appearance of the hands. The key innovation of our approach is the design of
the active object detection policy that uses an internal representation called
the Relational Box Field, which allows for every pixel to regress an improved
location of an active object bounding box, essentially giving every pixel the
ability to vote for a better bounding box location. The policy is trained using
a hybrid imitation learning and reinforcement learning approach, and at test
time, the policy is used repeatedly to refine the bounding box location of the
active object. We perform experiments on two large-scale datasets: 100DOH and
MECCANO, improving AP50 performance by 8% and 30%, respectively, over the state
of the art.
- Abstract(参考訳): 手と物体の相互作用を理解する重要な要素は、手と物体の相互作用によって引き起こされる閉塞にもかかわらず、人間の手で操作されている活動的な物体を識別する能力である。
対象物の位置や大きさの指標として手の出現が強いという観測に基づいて,手の位置や外観を条件とした逐次的意思決定プロセスとして,能動物体検出法を設定した。
このアプローチの重要な革新は、Relational Box Field(リレーショナルボックスフィールド)と呼ばれる内部表現を使ったアクティブオブジェクト検出ポリシーの設計です。
このポリシーは、ハイブリッドな模倣学習と強化学習アプローチを用いて訓練され、テスト時には、アクティブオブジェクトの境界ボックス位置を洗練するために繰り返し使用される。
我々は,100DOHとMECCANOの2つの大規模データセットで実験を行い,AP50の性能をそれぞれ8%,30%向上させた。
関連論文リスト
- Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。