論文の概要: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs
- arxiv url: http://arxiv.org/abs/2406.14596v3
- Date: Thu, 31 Oct 2024 05:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:11.239758
- Title: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs
- Title(参考訳): VLMエージェントが自作の記憶を生み出す: 身体的プログラムへの蒸留経験
- Authors: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki,
- Abstract要約: 大規模生成言語と視覚言語モデルは、意思決定のためのコンテキスト内学習において優れている。
In-Context Abstraction Learning (ICAL) は,マルチモーダルな体験のメモリを構築する手法である。
我々のアプローチは手動のプロンプト工学への依存を著しく減らし、そのような抽象化を欠いたアクションプランからコンテキスト内学習を一貫して上回ります。
- 参考スコア(独自算出の注目度): 38.03704123835915
- License:
- Abstract: Large-scale generative language and vision-language models excel in in-context learning for decision making. However, they require high-quality exemplar demonstrations to be included in their context window. In this work, we ask: Can LLMs and VLMs generate their own examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience from sub-optimal demonstrations and human feedback. Given a task demonstration that may contain inefficiencies or mistakes, a VLM abstracts the trajectory into a generalized program by correcting inefficient actions and annotating cognitive abstractions: causal relationships, object state changes, temporal subgoals, and task-relevant visual elements. These abstractions are iteratively improved through human feedback while the agent attempts to execute the trajectory. The resulting examples, when used as exemplars in the prompt, significantly improve decision-making in retrieval-augmented LLM and VLM agents. Moreover, as the agent's library of examples grows, it becomes more efficient, relying less on human feedback and requiring fewer environment interactions per demonstration. Our ICAL agent surpasses the state-of-the-art in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over the SOTA from 14.3% to 22.7% using GPT4V. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on manual prompt engineering and consistently outperforms in-context learning from action plans that lack such abstractions.
- Abstract(参考訳): 大規模生成言語と視覚言語モデルは、意思決定のためのコンテキスト内学習において優れている。
しかし、それらのコンテキストウィンドウに含めるためには、高品質な模範的なデモが必要である。
LLMとVLMは、汎用的で準最適なデモから、独自の例を生成できますか?
In-Context Abstraction Learning (ICAL) は,マルチモーダルな体験のメモリを構築する手法である。
不効率や誤りを含むタスクのデモンストレーションが与えられた場合、VLMは、非効率な行動を修正し、認知的抽象化(因果関係、オブジェクトの状態変化、時間的サブゴール、タスク関連視覚要素)を注釈することで、軌道を一般化されたプログラムに抽象化する。
これらの抽象化は人間のフィードバックによって反復的に改善され、エージェントは軌道を実行しようとする。
結果として得られた例は, 検索増強LDMおよびVLM剤の意思決定を著しく改善した。
さらに、エージェントのサンプルライブラリが大きくなると、より効率的になり、人間のフィードバックに頼らず、実演ごとに環境との相互作用が少なくなる。
TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型指導の最先端を超越している。
TEAChでは,目標条件の成功率が12.6%向上した。
VisualWebArenaでは、GPT4Vを使用してSOTAを14.3%から22.7%に改善しています。
Ego4D アクション予測では,数発の GPT-4V を改良し,教師付きモデルとの競争を継続する。
検索強化インコンテキストエージェントの微調整により,さらなる改善が期待できる。
我々のアプローチは手動のプロンプト工学への依存を著しく減らし、そのような抽象化を欠いたアクションプランからコンテキスト内学習を一貫して上回ります。
関連論文リスト
- Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは視覚言語モデル(VLM)のための新しい自己学習パイプラインである
広範囲のマニュアルアノテーションなしで独自のトレーニングデータを生成する。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization [19.13500546022262]
MTLSOは論理合成最適化のためのマルチタスク学習手法である。
一次回帰タスクと並行して,二元多ラベルグラフ分類の補助タスクを導入する。
また、階層的なグラフ表現学習戦略を用いて、表現力のあるグラフレベルの表現を学習するためのモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-09-09T21:20:36Z) - V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions [3.3235895997314726]
本稿では,説明文(E),キャプション(C),提案文(S)を付加した初のビジュアルレコメンダであるV-RECSについて述べる。
V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。
論文 参考訳(メタデータ) (2024-06-21T15:50:10Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。