論文の概要: Compose by Focus: Scene Graph-based Atomic Skills
- arxiv url: http://arxiv.org/abs/2509.16053v1
- Date: Fri, 19 Sep 2025 15:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.216979
- Title: Compose by Focus: Scene Graph-based Atomic Skills
- Title(参考訳): フォーカスによる作曲:Scene Graphベースのアトミックスキル
- Authors: Han Qi, Changhe Chen, Heng Yang,
- Abstract要約: 本稿では,タスク関連オブジェクトと関係性に着目したシーングラフに基づく表現を提案する。
さらに、視覚言語モデル(VLM)に基づくタスクプランナと「フォーカス」シーングラフスキルを組み合わせる。
シミュレーションと実世界の操作タスクの両方の実験は、最先端のベースラインよりもはるかに高い成功率を示している。
- 参考スコア(独自算出の注目度): 7.653513529718339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key requirement for generalist robots is compositional generalization - the ability to combine atomic skills to solve complex, long-horizon tasks. While prior work has primarily focused on synthesizing a planner that sequences pre-learned skills, robust execution of the individual skills themselves remains challenging, as visuomotor policies often fail under distribution shifts induced by scene composition. To address this, we introduce a scene graph-based representation that focuses on task-relevant objects and relations, thereby mitigating sensitivity to irrelevant variation. Building on this idea, we develop a scene-graph skill learning framework that integrates graph neural networks with diffusion-based imitation learning, and further combine "focused" scene-graph skills with a vision-language model (VLM) based task planner. Experiments in both simulation and real-world manipulation tasks demonstrate substantially higher success rates than state-of-the-art baselines, highlighting improved robustness and compositional generalization in long-horizon tasks.
- Abstract(参考訳): ジェネラリストロボットの重要な要件は、構成的一般化であり、複雑な長距離タスクを解くために原子スキルを組み合わせる能力である。
先行研究は主に、事前学習したスキルをシーケンスするプランナーの合成に重点を置いているが、個々のスキル自体の堅牢な実行は、シーン構成によって引き起こされる分配シフトの下で失敗することが多いため、依然として困難である。
これを解決するために,タスク関連オブジェクトと関係に着目したシーングラフに基づく表現を導入し,無関係な変動に対する感受性を緩和する。
このアイデアに基づいて、グラフニューラルネットワークと拡散に基づく模倣学習を統合したシーングラフスキル学習フレームワークを開発し、さらに「フォーカス」シーングラフスキルと視覚言語モデル(VLM)ベースのタスクプランナを組み合わせる。
シミュレーションと実世界の操作タスクの両方の実験は、最先端のベースラインよりもはるかに高い成功率を示し、長い水平タスクにおける堅牢性の改善と構成的一般化を強調している。
関連論文リスト
- Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Learning Semantic-Geometric Task Graph-Representations from Human Demonstrations [16.68801520494275]
対象の同一性や対象間の関係を符号化する意味幾何学的タスクグラフ表現と,その時間的幾何学的進化を人間の実演から導入する。
意味幾何学的タスクグラフ表現は、高い動作とオブジェクトの可変性を持つタスクに特に有益であることを示す。
論文 参考訳(メタデータ) (2026-01-16T17:35:00Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following [50.377287115281476]
本研究では,現在および将来の状態の表現と時間的損失を関連付ける学習により,構成一般化が向上することを示す。
我々は,多様なロボット操作タスクおよびシミュレーションにおけるアプローチを評価し,言語やゴールイメージで指定されたタスクに対して,大幅な改善を示す。
論文 参考訳(メタデータ) (2025-02-08T05:26:29Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Semantic-Geometric-Physical-Driven Robot Manipulation Skill Transfer via Skill Library and Tactile Representation [6.324290412766366]
操作知識を整理するための知識グラフに基づくスキルライブラリ構築手法を提案する。
また,スキルライブラリと触覚表現に基づく新しい階層型スキル伝達フレームワークを提案する。
提案手法のスキル伝達と適応性について実験を行った。
論文 参考訳(メタデータ) (2024-11-18T16:42:07Z) - SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution [75.2573501625811]
拡散モデルは、ロボット軌道計画の強力な可能性を示している。
高レベルの命令からコヒーレントな軌道を生成することは依然として困難である。
エンド・ツー・エンドの階層的計画フレームワークであるSkillDiffuserを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:16:52Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Self-supervised Visual Reinforcement Learning with Object-centric
Representations [11.786249372283562]
対象中心の表現をモジュラーおよび構造化された観測空間として用いることを提案する。
目標条件付きアテンションポリシーと組み合わせた表現の構造は,自律エージェントが有用なスキルを発見し,学習する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-11-29T14:55:09Z) - Transforming task representations to perform novel tasks [12.008469282323492]
知性の重要な側面は、直接の経験(ゼロショット)なしで新しいタスクに適応できる能力である。
本稿では,従来のタスクとの関係に基づいて,新しいタスクに適応するための一般的な計算フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T23:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。