論文の概要: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
- arxiv url: http://arxiv.org/abs/2406.14596v5
- Date: Mon, 20 Jan 2025 23:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:32.447985
- Title: VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
- Title(参考訳): VLMエージェントが自身の記憶を生み出す:思考の身体的プログラムに体験を蒸留する
- Authors: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki,
- Abstract要約: ical は最適軌道を最適化された行動と詳細な推論で高品質なデータに洗練する。
TEACh、VisualWebArena、Ego4Dの最先端技術を上回っている。
ICALは生の人間のデモより2倍のスケールをし、手動のプロンプトエンジニアリングを減らします。
- 参考スコア(独自算出の注目度): 38.03704123835915
- License:
- Abstract: Large-scale LLMs and VLMs excel at few-shot learning but require high-quality examples. We introduce In-Context Abstraction Learning (ICAL), which iteratively refines suboptimal trajectories into high-quality data with optimized actions and detailed reasoning. Given an inefficient demonstration, a VLM corrects actions and annotates causal relationships, object states, subgoals, and task-relevant visuals, forming "programs of thought." With human feedback, these programs are improved as the agent executes them in a similar environment. The resulting examples, used as prompt context or fine-tuning data, significantly boost decision-making while reducing human feedback needs. ICAL surpasses state-of-the-art in TEACh (dialogue-based instruction following), VisualWebArena (multimodal web agents), and Ego4D (egocentric video action anticipation). In TEACh, combining fine-tuning and retrieval on ICAL examples outperforms raw human demonstrations and expert examples, achieving a 17.5% increase in goal-condition success. In VisualWebArena, retrieval-augmented GPT-4V with ICAL improves task success rate 1.6x over GPT-4V, while fine-tuning Qwen2-VL achieves a 2.8x improvement. In Ego4D, ICAL outperforms few-shot GPT-4V and remains competitive with supervised models. Overall, ICAL scales 2x better than raw human demonstrations and reduces manual prompt engineering.
- Abstract(参考訳): 大規模なLLMとVLMは、数ショットの学習では優れるが、高品質な例を必要とする。
In-Context Abstraction Learning (ICAL)を導入し、最適化されたアクションと詳細な推論により、最適下方軌道を高品質なデータに反復的に洗練する。
不効率なデモンストレーションが与えられたとき、VLMはアクションを修正し、因果関係、オブジェクト状態、サブゴール、タスク関連視覚を注釈し、「思考のプログラム」を形成する。
人間のフィードバックによって、エージェントが同様の環境で実行するにつれて、これらのプログラムは改善される。
結果として得られた例は、迅速なコンテキストや微調整データとして使用され、人間のフィードバックのニーズを減らしながら意思決定を著しく向上させる。
ICALはTEACh(対話ベースの命令)、VisualWebArena(マルチモーダルWebエージェント)、Ego4D(エゴセントリックビデオアクション予測)の最先端を超越している。
TEAChでは、実験例の微調整と検索を組み合わせることで、生の人間のデモンストレーションや専門家の例より優れ、17.5%の目標条件達成を実現している。
VisualWebArena では、検索強化 GPT-4V は GPT-4V よりも1.6倍、微調整 Qwen2-VL は2.8倍に改善されている。
Ego4Dでは、ICALは数発のGPT-4Vより優れており、教師付きモデルと競合している。
全体として、ICは生の人間のデモより2倍のスケールをし、手動のプロンプトエンジニアリングを減らします。
関連論文リスト
- Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは視覚言語モデル(VLM)のための新しい自己学習パイプラインである
広範囲のマニュアルアノテーションなしで独自のトレーニングデータを生成する。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - MTLSO: A Multi-Task Learning Approach for Logic Synthesis Optimization [19.13500546022262]
MTLSOは論理合成最適化のためのマルチタスク学習手法である。
一次回帰タスクと並行して,二元多ラベルグラフ分類の補助タスクを導入する。
また、階層的なグラフ表現学習戦略を用いて、表現力のあるグラフレベルの表現を学習するためのモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-09-09T21:20:36Z) - V-RECS, a Low-Cost LLM4VIS Recommender with Explanations, Captioning and Suggestions [3.3235895997314726]
本稿では,説明文(E),キャプション(C),提案文(S)を付加した初のビジュアルレコメンダであるV-RECSについて述べる。
V-RECSの視覚化は、専門家でないユーザによる応答検証とデータ探索の両方を容易にする。
論文 参考訳(メタデータ) (2024-06-21T15:50:10Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。