論文の概要: Learning Semantic-Geometric Task Graph-Representations from Human Demonstrations
- arxiv url: http://arxiv.org/abs/2601.11460v1
- Date: Fri, 16 Jan 2026 17:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.583879
- Title: Learning Semantic-Geometric Task Graph-Representations from Human Demonstrations
- Title(参考訳): 意味幾何学的タスクグラフ表現の学習
- Authors: Franziska Herbert, Vignesh Prasad, Han Liu, Dorothea Koert, Georgia Chalvatzaki,
- Abstract要約: 対象の同一性や対象間の関係を符号化する意味幾何学的タスクグラフ表現と,その時間的幾何学的進化を人間の実演から導入する。
意味幾何学的タスクグラフ表現は、高い動作とオブジェクトの可変性を持つタスクに特に有益であることを示す。
- 参考スコア(独自算出の注目度): 16.68801520494275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning structured task representations from human demonstrations is essential for understanding long-horizon manipulation behaviors, particularly in bimanual settings where action ordering, object involvement, and interaction geometry can vary significantly. A key challenge lies in jointly capturing the discrete semantic structure of tasks and the temporal evolution of object-centric geometric relations in a form that supports reasoning over task progression. In this work, we introduce a semantic-geometric task graph-representation that encodes object identities, inter-object relations, and their temporal geometric evolution from human demonstrations. Building on this formulation, we propose a learning framework that combines a Message Passing Neural Network (MPNN) encoder with a Transformer-based decoder, decoupling scene representation learning from action-conditioned reasoning about task progression. The encoder operates solely on temporal scene graphs to learn structured representations, while the decoder conditions on action-context to predict future action sequences, associated objects, and object motions over extended time horizons. Through extensive evaluation on human demonstration datasets, we show that semantic-geometric task graph-representations are particularly beneficial for tasks with high action and object variability, where simpler sequence-based models struggle to capture task progression. Finally, we demonstrate that task graph representations can be transferred to a physical bimanual robot and used for online action selection, highlighting their potential as reusable task abstractions for downstream decision-making in manipulation systems.
- Abstract(参考訳): 人間のデモンストレーションから構造化されたタスク表現を学習することは、特にアクションの順序付け、オブジェクトの関与、相互作用の幾何学が著しく異なる双方向設定において、長期的な操作行動を理解するために不可欠である。
重要な課題は、タスクの個別の意味構造と、タスクの進行に関する推論を支援する形で、オブジェクト中心の幾何学的関係の時間的進化を共同で捉えることである。
本研究では,対象の同一性,対象間の関係,そして人間の実演からの時間的幾何学的進化をエンコードする意味幾何学的タスクグラフ表現を導入する。
この定式化に基づいて,MPNNエンコーダとTransformerベースのデコーダを組み合わせた学習フレームワークを提案する。
エンコーダは時間的シーングラフのみで構造化された表現を学習し、デコーダはアクションコンテキストで将来のアクションシーケンス、関連するオブジェクト、拡張時間地平線上のオブジェクトの動きを予測する。
人間の実演データセットを広範囲に評価することにより、意味幾何学的タスクグラフ表現は、より単純なシーケンスベースモデルでタスクの進行を捉えるのに苦労する、高い動作とオブジェクトの変動性を持つタスクに特に有益であることを示す。
最後に、タスクグラフ表現を物理的バイマニュアルロボットに転送し、オンラインアクション選択に使用し、操作システムにおける下流決定のための再利用可能なタスク抽象化としての可能性を強調した。
関連論文リスト
- Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following [50.377287115281476]
本研究では,現在および将来の状態の表現と時間的損失を関連付ける学習により,構成一般化が向上することを示す。
我々は,多様なロボット操作タスクおよびシミュレーションにおけるアプローチを評価し,言語やゴールイメージで指定されたタスクに対して,大幅な改善を示す。
論文 参考訳(メタデータ) (2025-02-08T05:26:29Z) - Semantic-Geometric-Physical-Driven Robot Manipulation Skill Transfer via Skill Library and Tactile Representation [6.324290412766366]
操作知識を整理するための知識グラフに基づくスキルライブラリ構築手法を提案する。
また,スキルライブラリと触覚表現に基づく新しい階層型スキル伝達フレームワークを提案する。
提案手法のスキル伝達と適応性について実験を行った。
論文 参考訳(メタデータ) (2024-11-18T16:42:07Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - Generalizable task representation learning from human demonstration
videos: a geometric approach [4.640835690336654]
本研究では,ロボットやロボットの動きを訓練することなく,人間のデモビデオからタスク学習を一般化する問題について検討する。
本研究では,構造制約下でのタスク表現の学習にグラフ構造化タスク関数を用いたCoVGS-ILを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:57Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。