Fugu-MT 論文翻訳(概要): VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought

論文の概要: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought

arxiv url: http://arxiv.org/abs/2406.14596v4
Date: Fri, 22 Nov 2024 07:43:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.944386
Title: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
Title（参考訳）: VLMエージェントが自身の記憶を生み出す:思考の身体的プログラムに体験を蒸留する
Authors: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki,
Abstract要約: 大規模生成言語と視覚言語モデル (LLMs と VLMs) は、意思決定と指示の追従のために、数ショットのインコンテクスト学習で優れている。 In-Context Abstraction Learning (ICAL) は,マルチモーダルな体験のメモリを構築する手法である。
参考スコア（独自算出の注目度）: 38.03704123835915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations in their context window. In this work, we ask: Can LLMs and VLMs generate their own examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience from sub-optimal demonstrations and human feedback. Given a task demonstration that may contain inefficiencies or mistakes, a VLM abstracts the trajectory into a generalized program of thoughts by correcting inefficient actions and annotating cognitive abstractions: causal relationships, object state changes, temporal subgoals, and task-relevant visual elements. These programs of thought are iteratively improved through human feedback while the agent executes the trajectory in a similar environment. The resulting examples significantly improve decision-making in retrieval-augmented LLM and VLM agents. Moreover, as the agent's library of examples grows, it becomes more efficient, relying less on human feedback and requiring fewer environment interactions per demonstration. Our ICAL agent surpasses the SOTA in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over few-shot GPT4V. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on manual prompt engineering and consistently outperforms in-context learning from action plans that lack such programs of thought.
Abstract（参考訳）: 大規模生成言語と視覚言語モデル (LLMs と VLMs) は、意思決定と指示の追従のために、数ショットのインコンテクスト学習で優れている。しかし、それらはコンテキストウィンドウで高品質な模範的なデモを必要とします。 LLMとVLMは、汎用的で準最適なデモから、独自の例を生成できますか? In-Context Abstraction Learning (ICAL) は,マルチモーダルな体験のメモリを構築する手法である。不効率や誤りを含むタスクのデモンストレーションが与えられたとき、VLMは、軌道を非効率な行動を修正し、認知的抽象化(因果関係、オブジェクトの状態変化、時間的サブゴール、タスク関連視覚要素)を注釈することで、一般的な思考プログラムに抽象化する。これらの思考プログラムは人間のフィードバックによって反復的に改善され、エージェントは同様の環境で軌道を実行する。その結果,LLMとVLMを併用した検索エージェントの意思決定が有意に改善した。さらに、エージェントのサンプルライブラリが大きくなると、より効率的になり、人間のフィードバックに頼らず、実演ごとに環境との相互作用が少なくなる。 TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型WebエージェントがSOTAを上回っている。 TEAChでは,目標条件の成功率が12.6%向上した。 VisualWebArenaでは、タスクの成功率は、数ショットのGPT4Vよりも向上します。 Ego4D アクション予測では,数発の GPT-4V を改良し,教師付きモデルとの競争を継続する。検索強化インコンテキストエージェントの微調整により,さらなる改善が期待できる。提案手法は手動のプロンプト技術への依存を著しく減らし,このような思考プログラムを欠く行動計画からコンテキスト内学習を一貫して上回る。

関連論文リスト

Boosting Visual Knowledge-Intensive Training for LVLMs Through Causality-Driven Visual Object Completion [25.84673296137996]
LVLM(Large Vision-Language Models)は近年大きな進歩を遂げている。しかし、彼らのパフォーマンスは、深い視覚的知覚を必要とするタスクでは依然として不足している。本稿では,新しい視覚的知識集約型タスクに基づく自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-06T13:54:49Z)
EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting [40.837048280287206]
視覚言語行動(VLA)モデルは、自然言語で案内されるロボット操作タスクにおいて優れた性能を示している。現在のVLAモデルは、2つの欠点に悩まされている: (i) 高い推論遅延とトレーニングコストの増加につながる大量のトークンの生成、 (ii) 生成されたアクションの不十分な利用により性能が低下する。並列性の高いアクショントークンを生成するために,VLAモデルを微調整するトレーニングフレームワークを開発し,推論遅延とトレーニングコストを効果的に低減する。
論文参考訳（メタデータ） (2025-07-07T15:30:55Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning [55.97950660659051]
我々は(蒸留に頼らずに)強化学習による視覚言語モデルの遅い思考能力の向上を目指す。我々は、RLトレーニングにおけるロールアウトの最後に再考トリガートークンを付加し、自己回帰推論ステップを明示的に実施する強制再考(Forced Rethinking)を導入する。我々のモデルであるVL-Rethinkerは、MathVista、MathVerseの最先端スコアを80.4%、63.5%に向上させています。
論文参考訳（メタデータ） (2025-04-10T17:41:56Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization [19.13500546022262]
MTLSOは論理合成最適化のためのマルチタスク学習手法である。一次回帰タスクと並行して,二元多ラベルグラフ分類の補助タスクを導入する。また、階層的なグラフ表現学習戦略を用いて、表現力のあるグラフレベルの表現を学習するためのモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-09-09T21:20:36Z)
Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。 JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文参考訳（メタデータ） (2024-09-06T21:00:57Z)
Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning [6.06616040517684]
DAAGは、拡散モデルを使って動画を変換することで、エージェントの過去の経験を再ラベルする。大規模言語モデルは、人間の監督を必要とせずに、この自律的なプロセスを編成する。その結果、DAAGは報酬検知器の学習を改善し、過去の経験を移譲し、新しいタスクを取得する。
論文参考訳（メタデータ） (2024-07-30T13:01:31Z)
Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文参考訳（メタデータ） (2024-07-16T01:28:06Z)
V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions [3.3235895997314726]
本稿では,説明文(E),キャプション(C),提案文(S)を付加した初のビジュアルレコメンダであるV-RECSについて述べる。 V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。
論文参考訳（メタデータ） (2024-06-21T15:50:10Z)
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文参考訳（メタデータ） (2024-04-06T13:25:00Z)
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文参考訳（メタデータ） (2024-03-21T18:00:00Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文参考訳（メタデータ） (2024-02-19T18:53:54Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。