論文の概要: Sequential Decision-Making for Active Object Detection from Hand
- arxiv url: http://arxiv.org/abs/2110.11524v1
- Date: Thu, 21 Oct 2021 23:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:17:20.613341
- Title: Sequential Decision-Making for Active Object Detection from Hand
- Title(参考訳): 手指からの能動物体検出のための逐次意思決定
- Authors: Qichen Fu, Xingyu Liu, Kris M. Kitani
- Abstract要約: 手動オブジェクトの相互作用を理解する重要な要素は、アクティブオブジェクトを識別する能力である。
我々は,手の位置と外観を条件とした逐次的意思決定プロセスとして,能動物体検出手法を構築した。
このアプローチの主な革新は、Box Fieldと呼ばれる内部表現を使用するアクティブオブジェクト検出ポリシーの設計です。
- 参考スコア(独自算出の注目度): 43.839322860501596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key component of understanding hand-object interactions is the ability to
identify the active object -- the object that is being manipulated by the human
hand -- despite the occlusion induced by hand-object interactions. Based on the
observation that hand appearance is a strong indicator of the location and size
of the active object, we set up our active object detection method as a
sequential decision-making process that is conditioned on the location and
appearance of the hands. The key innovation of our approach is the design of
the active object detection policy that uses an internal representation called
the Relational Box Field, which allows for every pixel to regress an improved
location of an active object bounding box, essentially giving every pixel the
ability to vote for a better bounding box location. The policy is trained using
a hybrid imitation learning and reinforcement learning approach, and at test
time, the policy is used repeatedly to refine the bounding box location of the
active object. We perform experiments on two large-scale datasets: 100DOH and
MECCANO, improving AP50 performance by 8% and 30%, respectively, over the state
of the art.
- Abstract(参考訳): 手と物体の相互作用を理解する重要な要素は、手と物体の相互作用によって引き起こされる閉塞にもかかわらず、人間の手で操作されている活動的な物体を識別する能力である。
対象物の位置や大きさの指標として手の出現が強いという観測に基づいて,手の位置や外観を条件とした逐次的意思決定プロセスとして,能動物体検出法を設定した。
このアプローチの重要な革新は、Relational Box Field(リレーショナルボックスフィールド)と呼ばれる内部表現を使ったアクティブオブジェクト検出ポリシーの設計です。
このポリシーは、ハイブリッドな模倣学習と強化学習アプローチを用いて訓練され、テスト時には、アクティブオブジェクトの境界ボックス位置を洗練するために繰り返し使用される。
我々は,100DOHとMECCANOの2つの大規模データセットで実験を行い,AP50の性能をそれぞれ8%,30%向上させた。
関連論文リスト
- Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。