論文の概要: ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
- arxiv url: http://arxiv.org/abs/2406.14596v1
- Date: Thu, 20 Jun 2024 17:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:37:49.050586
- Title: ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
- Title(参考訳): ICAL: 軌道変換によるマルチモーダルエージェントの継続的な学習
- Authors: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki,
- Abstract要約: 大規模生成言語モデル (LLMs と VLMs) は、意思決定と後続の指示のためのテキスト内学習において優れている。
In-Context Abstraction Learning (ICAL) を提案する。これは、準最適実験と人間のフィードバックからマルチモーダル体験の洞察を記憶する手法である。
TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型指導の最先端を超越している。
- 参考スコア(独自算出の注目度): 38.03704123835915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations to be included in their context window. In this work, we ask: Can LLMs and VLMs generate their own prompt examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience insights from sub-optimal demonstrations and human feedback. Given a noisy demonstration in a new domain, VLMs abstract the trajectory into a general program by fixing inefficient actions and annotating cognitive abstractions: task relationships, object state changes, temporal subgoals, and task construals. These abstractions are refined and adapted interactively through human feedback while the agent attempts to execute the trajectory in a similar environment. The resulting abstractions, when used as exemplars in the prompt, significantly improve decision-making in retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the state-of-the-art in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over the SOTA from 14.3% to 22.7%. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on expert-crafted examples and consistently outperforms in-context learning from action plans that lack such insights.
- Abstract(参考訳): 大規模生成言語と視覚言語モデル (LLMs と VLMs) は、意思決定と指示の追従のために、数ショットのインコンテクスト学習で優れている。
しかし、それらのコンテキストウィンドウに含めるためには、高品質な模範的なデモが必要である。
LLMとVLMは、汎用的で準最適なデモから、独自のプロンプト例を生成できますか?
In-Context Abstraction Learning (ICAL) を提案する。これは、準最適実験と人間のフィードバックからマルチモーダル体験の洞察を記憶する手法である。
新たな領域におけるノイズの多いデモンストレーションが与えられた後、VLMは、非効率なアクションを固定し、認知的抽象化(タスク関係、オブジェクトの状態変化、時間的サブゴール、タスクのコンストラル)を注釈することで、軌道を一般的なプログラムに抽象化する。
これらの抽象化は人間のフィードバックによって洗練され、対話的に適応され、エージェントは類似した環境で軌道を実行しようとする。
その結果,LLM と VLM を検索対象とするエージェントにおいて,プロンプトの例として用いることで,意思決定の大幅な向上が図られた。
TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型指導の最先端を超越している。
TEAChでは,目標条件の成功率が12.6%向上した。
VisualWebArenaでは、タスク成功率は、SOTAを14.3%から22.7%に改善しています。
Ego4D アクション予測では,数発の GPT-4V を改良し,教師付きモデルとの競争を継続する。
検索強化インコンテキストエージェントの微調整により,さらなる改善が期待できる。
我々のアプローチは専門家による事例への依存を著しく減らし、そのような洞察を欠くアクションプランからのコンテキスト内学習を一貫して上回ります。
関連論文リスト
- Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning [6.06616040517684]
DAAGは、拡散モデルを使って動画を変換することで、エージェントの過去の経験を再ラベルする。
大規模言語モデルは、人間の監督を必要とせずに、この自律的なプロセスを編成する。
その結果、DAAGは報酬検知器の学習を改善し、過去の経験を移譲し、新しいタスクを取得する。
論文 参考訳(メタデータ) (2024-07-30T13:01:31Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。