論文の概要: Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision
- arxiv url: http://arxiv.org/abs/2506.03605v1
- Date: Wed, 04 Jun 2025 06:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.179621
- Title: Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision
- Title(参考訳): 自我中心視における行動記述からの6DoF物体操作軌道の生成
- Authors: Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori,
- Abstract要約: 大規模なエゴやエクソ中心のビデオデータセットを活用して,多様な操作軌跡を大規模に抽出するフレームワークを提案する。
我々は、視覚的および点的クラウドベース言語モデルに基づく軌道生成モデルを開発する。
- 参考スコア(独自算出の注目度): 6.699930460835963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to use tools or objects in common scenes, particularly handling them in various ways as instructed, is a key challenge for developing interactive robots. Training models to generate such manipulation trajectories requires a large and diverse collection of detailed manipulation demonstrations for various objects, which is nearly unfeasible to gather at scale. In this paper, we propose a framework that leverages large-scale ego- and exo-centric video datasets -- constructed globally with substantial effort -- of Exo-Ego4D to extract diverse manipulation trajectories at scale. From these extracted trajectories with the associated textual action description, we develop trajectory generation models based on visual and point cloud-based language models. In the recently proposed egocentric vision-based in-a-quality trajectory dataset of HOT3D, we confirmed that our models successfully generate valid object trajectories, establishing a training dataset and baseline models for the novel task of generating 6DoF manipulation trajectories from action descriptions in egocentric vision.
- Abstract(参考訳): ツールやオブジェクトを一般的な場面で、特に指示通りにさまざまな方法で扱うことを学ぶことは、対話型ロボットを開発する上で重要な課題である。
このような操作トラジェクトリを生成するためのトレーニングモデルは、さまざまなオブジェクトの詳細な操作デモを多種多様に収集する必要があるが、大規模に収集することはほぼ不可能である。
本稿では,Exo-Ego4Dの大規模なエゴおよびエクソ中心のビデオデータセットを世界規模で構築し,多様な操作軌跡を大規模に抽出するフレームワークを提案する。
これらの抽出された軌跡と関連するテキスト行動記述から,視覚的および点的クラウドに基づく言語モデルに基づく軌跡生成モデルを構築した。
最近提案されたHOT3Dの自我的視覚に基づく高品質な軌跡データセットにおいて、我々のモデルは有効な対象軌跡の生成に成功し、自我的視覚における行動記述から6DoF操作軌跡を生成する新しいタスクのためのトレーニングデータセットとベースラインモデルを確立した。
関連論文リスト
- SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - Grounding Video Models to Actions through Goal Conditioned Exploration [29.050431676226115]
本稿では,エージェントが複雑なタスクを解くために,映像誘導とトラジェクトリレベルのアクション生成を利用するフレームワークを提案する。
当社のアプローチが,専門家によるデモンストレーションでトレーニングされた,複数の行動クローンベースラインと同等であるか,あるいは超越しているかを示します。
論文 参考訳(メタデータ) (2024-11-11T18:43:44Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。