論文の概要: Long-Horizon Visual Imitation Learning via Plan and Code Reflection
- arxiv url: http://arxiv.org/abs/2509.05368v1
- Date: Thu, 04 Sep 2025 06:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.468534
- Title: Long-Horizon Visual Imitation Learning via Plan and Code Reflection
- Title(参考訳): 計画とコード反射による長距離視覚模倣学習
- Authors: Quan Chen, Chenrui Shi, Qi Chen, Yuwei Wu, Zhi Gao, Xintong Zhang, Rui Gao, Kun Wu, Yunde Jia,
- Abstract要約: 複雑なアクションシーケンスを持つ長距離デモから学ぶことは、視覚模倣学習にとって重要な課題である。
本稿では,2つの専用リフレクションモジュールを組み込んだ新しいエージェントフレームワークを提案する。
これら2つのリフレクションモジュールは、エージェントが計画生成とコード生成の両方のエラーを検出し、修正できるようにし、複雑な時間的および空間的依存関係を持つタスクのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 38.623241640073225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from long-horizon demonstrations with complex action sequences presents significant challenges for visual imitation learning, particularly in understanding temporal relationships of actions and spatial relationships between objects. In this paper, we propose a new agent framework that incorporates two dedicated reflection modules to enhance both plan and code generation. The plan generation module produces an initial action sequence, which is then verified by the plan reflection module to ensure temporal coherence and spatial alignment with the demonstration video. The code generation module translates the plan into executable code, while the code reflection module verifies and refines the generated code to ensure correctness and consistency with the generated plan. These two reflection modules jointly enable the agent to detect and correct errors in both the plan generation and code generation, improving performance in tasks with intricate temporal and spatial dependencies. To support systematic evaluation, we introduce LongVILBench, a benchmark comprising 300 human demonstrations with action sequences of up to 18 steps. LongVILBench emphasizes temporal and spatial complexity across multiple task types. Experimental results demonstrate that existing methods perform poorly on this benchmark, whereas our new framework establishes a strong baseline for long-horizon visual imitation learning.
- Abstract(参考訳): 複雑なアクションシーケンスを持つ長距離デモから学ぶことは、視覚模倣学習、特に行動の時間的関係と物体間の空間的関係を理解する上で重要な課題を示す。
本稿では,2つの専用リフレクションモジュールを組み込んだ新しいエージェントフレームワークを提案する。
プラン生成モジュールは、初期アクションシーケンスを生成し、プラン反射モジュールによって検証され、デモビデオとの時間的コヒーレンスと空間的アライメントを保証する。
コード生成モジュールはプランを実行可能なコードに変換し、コードリフレクションモジュールは生成されたコードを検証して洗練し、生成された計画の正確性と一貫性を保証する。
これら2つのリフレクションモジュールは、エージェントが計画生成とコード生成の両方のエラーを検出し、修正できるようにし、複雑な時間的および空間的依存関係を持つタスクのパフォーマンスを向上させる。
システム評価を支援するために,最大18ステップまでの動作シーケンスを持つ300個の人間デモからなるベンチマークであるLongVILBenchを紹介する。
LongVILBenchは、複数のタスクタイプにわたる時間的および空間的複雑さを強調している。
実験結果から,本ベンチマークでは既存手法が不十分であることが確認できたが,本フレームワークは長距離視覚模倣学習の強力なベースラインを確立した。
関連論文リスト
- EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。
我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文 参考訳(メタデータ) (2024-08-05T03:22:10Z) - Improving Planning with Large Language Models: A Modular Agentic Architecture [7.63815864256878]
大規模言語モデル(LLM)は、多段階の推論や目標指向の計画を必要とするタスクに悩まされることが多い。
本稿では,特殊モジュールの反復的相互作用によって計画が達成されるエージェントアーキテクチャ,MAPを提案する。
MAPは両方の標準LLM法よりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T00:10:14Z) - SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex
Interactive Tasks [81.9962823875981]
我々は、人間の認知の二重プロセス理論に触発された新しいエージェントフレームワークSwiftSageを紹介する。
フレームワークは、高速で直感的な思考を表すSwiftモジュールと、意図的な思考プロセスをエミュレートするSageモジュールの2つの主要なモジュールで構成されている。
ScienceWorldベンチマークの30タスクでは、SwiftSageはSayCan、ReAct、Reflexといった他のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-27T07:04:15Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。