論文の概要: ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
- arxiv url: http://arxiv.org/abs/2406.14596v2
- Date: Mon, 30 Sep 2024 04:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:53.019650
- Title: ICAL: Continual Learning of Multimodal Agents by Transforming Trajectories into Actionable Insights
- Title(参考訳): ICAL: 軌道変換によるマルチモーダルエージェントの継続的な学習
- Authors: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki,
- Abstract要約: 大規模生成言語モデル (LLMs と VLMs) は、意思決定と後続の指示のためのテキスト内学習において優れている。
In-Context Abstraction Learning (ICAL) を提案する。これは、準最適実験と人間のフィードバックからマルチモーダル体験の洞察を記憶する手法である。
TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型指導の最先端を超越している。
- 参考スコア(独自算出の注目度): 38.03704123835915
- License:
- Abstract: Large-scale generative language and vision-language models (LLMs and VLMs) excel in few-shot in-context learning for decision making and instruction following. However, they require high-quality exemplar demonstrations to be included in their context window. In this work, we ask: Can LLMs and VLMs generate their own prompt examples from generic, sub-optimal demonstrations? We propose In-Context Abstraction Learning (ICAL), a method that builds a memory of multimodal experience insights from sub-optimal demonstrations and human feedback. Given a noisy demonstration in a new domain, VLMs abstract the trajectory into a general program by fixing inefficient actions and annotating cognitive abstractions: task relationships, object state changes, temporal subgoals, and task construals. These abstractions are refined and adapted interactively through human feedback while the agent attempts to execute the trajectory in a similar environment. The resulting abstractions, when used as exemplars in the prompt, significantly improve decision-making in retrieval-augmented LLM and VLM agents. Our ICAL agent surpasses the state-of-the-art in dialogue-based instruction following in TEACh, multimodal web agents in VisualWebArena, and action anticipation in Ego4D. In TEACh, we achieve a 12.6% improvement in goal-condition success. In VisualWebArena, our task success rate improves over the SOTA from 18.9% to 23.4%. In Ego4D action forecasting, we improve over few-shot GPT-4V and remain competitive with supervised models. We show finetuning our retrieval-augmented in-context agent yields additional improvements. Our approach significantly reduces reliance on expert-crafted examples and consistently outperforms in-context learning from action plans that lack such insights.
- Abstract(参考訳): 大規模生成言語と視覚言語モデル (LLMs と VLMs) は、意思決定と指示の追従のために、数ショットのインコンテクスト学習で優れている。
しかし、それらのコンテキストウィンドウに含めるためには、高品質な模範的なデモが必要である。
LLMとVLMは、汎用的で準最適なデモから、独自のプロンプト例を生成できますか?
In-Context Abstraction Learning (ICAL) を提案する。これは、準最適実験と人間のフィードバックからマルチモーダル体験の洞察を記憶する手法である。
新たな領域におけるノイズの多いデモンストレーションが与えられた後、VLMは、非効率なアクションを固定し、認知的抽象化(タスク関係、オブジェクトの状態変化、時間的サブゴール、タスクのコンストラル)を注釈することで、軌道を一般的なプログラムに抽象化する。
これらの抽象化は人間のフィードバックによって洗練され、対話的に適応され、エージェントは類似した環境で軌道を実行しようとする。
その結果,LLM と VLM を検索対象とするエージェントにおいて,プロンプトの例として用いることで,意思決定の大幅な向上が図られた。
TEAChやVisualWebArenaのマルチモーダルWebエージェント,Ego4Dのアクション予測など,対話型指導の最先端を超越している。
TEAChでは,目標条件の成功率が12.6%向上した。
VisualWebArenaでは、タスク成功率は、SOTAを18.9%から23.4%に改善しています。
Ego4D アクション予測では,数発の GPT-4V を改良し,教師付きモデルとの競争を継続する。
検索強化インコンテキストエージェントの微調整により,さらなる改善が期待できる。
我々のアプローチは専門家による事例への依存を著しく減らし、そのような洞察を欠くアクションプランからのコンテキスト内学習を一貫して上回ります。
関連論文リスト
- Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - METAREFLECTION: Learning Instructions for Language Agents using Past Reflections [11.028256182234017]
本稿では,訓練期間中に収集した個々の自己反射から,特定のドメインに対する一般的なプロンプト命令を学習する技術であるMETAREFLECTIONを紹介する。
本稿では,インフラストラクチャ・アズ・コード (IAC) の脆弱性検出とREACTとCOTを用いた質問応答 (QA) の2つの領域で評価する。
論文 参考訳(メタデータ) (2024-05-13T10:51:43Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。