論文の概要: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
- arxiv url: http://arxiv.org/abs/2406.14596v5
- Date: Mon, 20 Jan 2025 23:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:32.447985
- Title: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
- Title(参考訳): VLMエージェントが自身の記憶を生み出す:思考の身体的プログラムに体験を蒸留する
- Authors: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki,
- Abstract要約: ical は最適軌道を最適化された行動と詳細な推論で高品質なデータに洗練する。
TEACh、VisualWebArena、Ego4Dの最先端技術を上回っている。
ICALは生の人間のデモより2倍のスケールをし、手動のプロンプトエンジニアリングを減らします。
- 参考スコア(独自算出の注目度): 38.03704123835915
- License:
- Abstract: Large-scale LLMs and VLMs excel at few-shot learning but require high-quality examples. We introduce In-Context Abstraction Learning (ICAL), which iteratively refines suboptimal trajectories into high-quality data with optimized actions and detailed reasoning. Given an inefficient demonstration, a VLM corrects actions and annotates causal relationships, object states, subgoals, and task-relevant visuals, forming "programs of thought." With human feedback, these programs are improved as the agent executes them in a similar environment. The resulting examples, used as prompt context or fine-tuning data, significantly boost decision-making while reducing human feedback needs. ICAL surpasses state-of-the-art in TEACh (dialogue-based instruction following), VisualWebArena (multimodal web agents), and Ego4D (egocentric video action anticipation). In TEACh, combining fine-tuning and retrieval on ICAL examples outperforms raw human demonstrations and expert examples, achieving a 17.5% increase in goal-condition success. In VisualWebArena, retrieval-augmented GPT-4V with ICAL improves task success rate 1.6x over GPT-4V, while fine-tuning Qwen2-VL achieves a 2.8x improvement. In Ego4D, ICAL outperforms few-shot GPT-4V and remains competitive with supervised models. Overall, ICAL scales 2x better than raw human demonstrations and reduces manual prompt engineering.
- Abstract(参考訳): 大規模なLLMとVLMは、数ショットの学習では優れるが、高品質な例を必要とする。
In-Context Abstraction Learning (ICAL)を導入し、最適化されたアクションと詳細な推論により、最適下方軌道を高品質なデータに反復的に洗練する。
不効率なデモンストレーションが与えられたとき、VLMはアクションを修正し、因果関係、オブジェクト状態、サブゴール、タスク関連視覚を注釈し、「思考のプログラム」を形成する。
人間のフィードバックによって、エージェントが同様の環境で実行するにつれて、これらのプログラムは改善される。
結果として得られた例は、迅速なコンテキストや微調整データとして使用され、人間のフィードバックのニーズを減らしながら意思決定を著しく向上させる。
ICALはTEACh(対話ベースの命令)、VisualWebArena(マルチモーダルWebエージェント)、Ego4D(エゴセントリックビデオアクション予測)の最先端を超越している。
TEAChでは、実験例の微調整と検索を組み合わせることで、生の人間のデモンストレーションや専門家の例より優れ、17.5%の目標条件達成を実現している。
VisualWebArena では、検索強化 GPT-4V は GPT-4V よりも1.6倍、微調整 Qwen2-VL は2.8倍に改善されている。
Ego4Dでは、ICALは数発のGPT-4Vより優れており、教師付きモデルと競合している。
全体として、ICは生の人間のデモより2倍のスケールをし、手動のプロンプトエンジニアリングを減らします。
関連論文リスト
- Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning [6.06616040517684]
DAAGは、拡散モデルを使って動画を変換することで、エージェントの過去の経験を再ラベルする。
大規模言語モデルは、人間の監督を必要とせずに、この自律的なプロセスを編成する。
その結果、DAAGは報酬検知器の学習を改善し、過去の経験を移譲し、新しいタスクを取得する。
論文 参考訳(メタデータ) (2024-07-30T13:01:31Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。