論文の概要: CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity
- arxiv url: http://arxiv.org/abs/2506.16652v1
- Date: Thu, 19 Jun 2025 23:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.289848
- Title: CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity
- Title(参考訳): CodeDiffuser: 指示曖昧性のためのVLM生成コードによる注意力強化拡散政策
- Authors: Guang Yin, Yitong Li, Yixuan Wang, Dale McConachie, Paarth Shah, Kunimatsu Hashimoto, Huan Zhang, Katherine Liu, Yunzhu Li,
- Abstract要約: 我々は,潜在的にあいまいな自然言語によって指定されたタスクを達成できる,新しいロボット操作フレームワークを導入する。
このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈する。
本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
- 参考スコア(独自算出の注目度): 23.77040677368575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language instructions for robotic manipulation tasks often exhibit ambiguity and vagueness. For instance, the instruction "Hang a mug on the mug tree" may involve multiple valid actions if there are several mugs and branches to choose from. Existing language-conditioned policies typically rely on end-to-end models that jointly handle high-level semantic understanding and low-level action generation, which can result in suboptimal performance due to their lack of modularity and interpretability. To address these challenges, we introduce a novel robotic manipulation framework that can accomplish tasks specified by potentially ambiguous natural language. This framework employs a Vision-Language Model (VLM) to interpret abstract concepts in natural language instructions and generates task-specific code - an interpretable and executable intermediate representation. The generated code interfaces with the perception module to produce 3D attention maps that highlight task-relevant regions by integrating spatial and semantic information, effectively resolving ambiguities in instructions. Through extensive experiments, we identify key limitations of current imitation learning methods, such as poor adaptation to language and environmental variations. We show that our approach excels across challenging manipulation tasks involving language ambiguity, contact-rich manipulation, and multi-object interactions.
- Abstract(参考訳): ロボット操作タスクの自然言語命令は曖昧さとあいまいさを示すことが多い。
例えば、"Hang a mug on the mug tree"という命令は、いくつかのマグや枝がある場合、複数の有効なアクションを含む可能性がある。
既存の言語条件のポリシーは、高レベルのセマンティック理解と低レベルのアクション生成を共同で扱うエンド・ツー・エンドモデルに依存している。
これらの課題に対処するために、潜在的にあいまいな自然言語によって指定されたタスクを達成できる新しいロボット操作フレームワークを導入する。
このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈し、タスク固有のコードを生成する。
生成されたコードと知覚モジュールは、空間情報と意味情報を統合してタスク関連領域をハイライトする3Dアテンションマップを生成し、命令の曖昧さを効果的に解消する。
広範にわたる実験を通じて,言語への適応性の低さや環境変動など,現在の模倣学習手法の重要な限界を同定する。
本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
関連論文リスト
- Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines [0.0]
本稿では,自然言語のタスク記述を高レベルなデータ生成命令によってコードに変換する動的パイプラインを提案する。
本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。
本稿では,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:58:47Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects [9.500480417077272]
本稿では,自然言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトをブリッジする新しいフレームワークを提案する。
パーシャルグラウンドモジュールは、セマンティックな部分を「ジェネリザブル・アクティブル・パート(GAParts)」と表現し、パートモーションに関する情報を本質的に保持する。
インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。
論文 参考訳(メタデータ) (2023-12-03T07:22:42Z) - InstructSeq: Unifying Vision Tasks with Instruction-conditioned
Multi-modal Sequence Generation [59.24938416319019]
InstructSeqは命令条件付きマルチモーダルモデリングフレームワークである。
柔軟な自然言語制御と視覚データとテキストデータの扱いにより、多様な視覚タスクを統一する。
論文 参考訳(メタデータ) (2023-11-30T18:59:51Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。