Fugu-MT 論文翻訳(概要): ICLR: In-Context Imitation Learning with Visual Reasoning

論文の概要: ICLR: In-Context Imitation Learning with Visual Reasoning

arxiv url: http://arxiv.org/abs/2603.07530v1
Date: Sun, 08 Mar 2026 08:40:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.05486
Title: ICLR: In-Context Imitation Learning with Visual Reasoning
Title（参考訳）: ICLR:ビジュアル推論によるインコンテキスト模倣学習
Authors: Toan Nguyen, Weiduo Yuan, Songlin Wei, Hui Li, Daniel Seita, Yue Wang,
Abstract要約: インコンテキストの模倣学習により、ロボットは追加の訓練をすることなく、少数のデモから新しいタスクに適応できる。 In-Context Imitation Learning with Visual Reasoning (ICLR) は、視覚的推論トレースを構造化したデモプロンプトを強化する新しいフレームワークである。
参考スコア（独自算出の注目度）: 7.622880558476133
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In-context imitation learning enables robots to adapt to new tasks from a small number of demonstrations without additional training. However, existing approaches typically condition only on state-action trajectories and lack explicit representations of task intent. This limitation hinders performance in complex and ambiguous task settings where the same actions may be consistent with different objectives. To address this, we present In-Context Imitation Learning with Visual Reasoning (ICLR), a novel framework that augments demonstration prompts with structured visual reasoning traces representing anticipated future robot trajectories in image space. ICLR also jointly learns to generate reasoning traces and low-level actions within a unified autoregressive transformer, enabling the model to mimic not only action prediction but also the reasoning process that leads to those actions. We extensively evaluate ICLR in both simulation and real-world manipulation tasks and demonstrate consistent improvements in success rates and generalization to unseen tasks and novel object configurations compared to other in-context imitation learning methods. These results suggest that incorporating embodied visual reasoning represents a promising direction for enhancing the robustness and generalization of robotic in-context learning systems.
Abstract（参考訳）: インコンテキストの模倣学習により、ロボットは追加の訓練をすることなく、少数のデモから新しいタスクに適応できる。しかしながら、既存のアプローチは通常、状態-作用軌道のみを条件とし、タスク意図の明示的な表現を欠いている。この制限は、同じアクションが異なる目的と一致している可能性がある、複雑であいまいなタスク設定のパフォーマンスを妨げる。これを解決するために、画像空間における将来的なロボット軌道を表す構造化された視覚的推論トレースを用いて、デモプロンプトを強化する新しいフレームワーク、In-Context Imitation Learning with Visual Reasoning(ICLR)を提案する。 ICLRはまた、統一された自己回帰変換器内で推論トレースと低レベルのアクションを生成することを共同で学び、モデルがアクション予測だけでなく、それらのアクションにつながる推論プロセスも模倣できるようにする。シミュレーションおよび実世界の操作タスクにおいて、ICLRを広範囲に評価し、他のテキスト内模倣学習法と比較して、未確認タスクや新しいオブジェクト構成に対する成功率と一般化の一貫性を実証する。これらの結果から, 具体的視覚推論の導入は, ロボティックインコンテキスト学習システムの堅牢性と一般化を促進する上で有望な方向を示すことが示唆された。

関連論文リスト

Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。 LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文参考訳（メタデータ） (2026-03-13T13:08:26Z)
AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models [36.00004339916959]
本稿では、連続因果配列として行動を生成するスタンドアロンの自己回帰(AR)アクションエキスパートを提案する。我々の研究は、スケーラブルでコンテキスト対応のアクション生成スキーマを導入し、効果的なロボットポリシーをトレーニングするための堅牢な構造基盤を提供します。
論文参考訳（メタデータ） (2026-03-10T18:03:29Z)
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。 textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文参考訳（メタデータ） (2026-01-26T06:16:17Z)
Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。 Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文参考訳（メタデータ） (2025-12-15T18:03:42Z)
Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文参考訳（メタデータ） (2025-10-22T16:43:29Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
What to Do Next? Memorizing skills from Egocentric Instructional Video [43.59787683244105]
本稿では,新しいタスクである対話型アクションプランニングを提案し,トポロジカルアプライアンスメモリとトランスフォーマーアーキテクチャを組み合わせたアプローチを提案する。実験の結果,提案手法は意味のある表現を学習し,その結果,行動偏差が発生すると性能が向上し,頑健になることが示された。
論文参考訳（メタデータ） (2025-07-01T22:53:41Z)
Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文参考訳（メタデータ） (2024-02-18T12:43:38Z)
Sample-Efficient Reinforcement Learning with Symmetry-Guided Demonstrations for Robotic Manipulation [7.099237102357281]
強化学習(RL)は、特に高次元連続状態-作用空間において、サンプル効率の低下に悩まされる。デモとRL生成の両方を格納するデュアルバッファアーキテクチャを用いた新しいトレーニングフレームワークであるDemo-EASEを紹介する。その結果,Demo-EASEは標準のRLベースラインに比べてコンバージェンスを著しく加速し,最終性能を向上させることがわかった。
論文参考訳（メタデータ） (2023-04-12T11:38:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。