論文の概要: Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld
- arxiv url: http://arxiv.org/abs/2311.16714v2
- Date: Fri, 29 Mar 2024 04:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:17:13.008291
- Title: Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld
- Title(参考訳): パラレルテキストワールドからLLMを訓練したマルチモーダルエージェント
- Authors: Yijun Yang, Tianyi Zhou, Kanxue Li, Dapeng Tao, Lusong Li, Li Shen, Xiaodong He, Jing Jiang, Yuhui Shi,
- Abstract要約: 視覚言語モデル(VLM)は、静的な画像の特徴に合わせた大きな言語モデル(LLM)を統合する。
VLMは、具現化された視覚世界において訓練されていないため、その力学と整合することができない。
我々は、平行テキストの世界において優れたLDMエージェントを用いて、視覚の世界に住むVLMエージェントを訓練する。
- 参考スコア(独自算出の注目度): 39.50844123904102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) excel in a simulated world of texts, they struggle to interact with the more realistic world without perceptions of other modalities such as visual or audio signals. Although vision-language models (VLMs) integrate LLM modules (1) aligned with static image features, and (2) may possess prior knowledge of world dynamics (as demonstrated in the text world), they have not been trained in an embodied visual world and thus cannot align with its dynamics. On the other hand, training an embodied agent in a noisy visual world without expert guidance is often challenging and inefficient. In this paper, we train a VLM agent living in a visual world using an LLM agent excelling in a parallel text world. Specifically, we distill LLM's reflection outcomes (improved actions by analyzing mistakes) in a text world's tasks to finetune the VLM on the same tasks of the visual world, resulting in an Embodied Multi-Modal Agent (EMMA) quickly adapting to the visual world dynamics. Such cross-modality imitation learning between the two parallel worlds is achieved by a novel DAgger-DPO algorithm, enabling EMMA to generalize to a broad scope of new tasks without any further guidance from the LLM expert. Extensive evaluations on the ALFWorld benchmark's diverse tasks highlight EMMA's superior performance to SOTA VLM-based agents, e.g., 20%-70% improvement in the success rate.
- Abstract(参考訳): 大きな言語モデル(LLM)は、シミュレーションされたテキストの世界において優れているが、視覚や音声信号などの他のモダリティを認識せずに、より現実的な世界と対話するのに苦労する。
視覚言語モデル(VLM)は,(1)静的な画像特徴に整合したLLMモジュールと,(2)世界力学の事前知識(テキストの世界で実証されているように)を統合しているが,それらが具現化された視覚世界において訓練されていないため,その力学と整合することができない。
一方,ノイズの多い視覚的世界において,専門家による指導を伴わないエンボディエージェントの訓練は,しばしば困難で非効率である。
本稿では,並列テキストの世界において優れたLDMエージェントを用いて,視覚の世界に住むVLMエージェントを訓練する。
具体的には、テキストワールドのタスクにおいてLLMの反射結果(誤りを分析して改善された動作)を蒸留し、視覚世界の同じタスクでVLMを微調整し、視覚世界のダイナミクスに迅速に適応するEmbodied Multi-Modal Agent(EMMA)を実現する。
この2つの並列世界の相互模倣学習は、新しいDAgger-DPOアルゴリズムによって実現され、EMMAはLLMの専門家の指導なしに、新しいタスクの幅広い範囲に一般化することができる。
ALFWorldベンチマークの多種多様なタスクに対する広範囲な評価は、EMMAがSOTA VLMベースのエージェントよりも優れており、成功率の20%-70%が改善されている。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。
LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。
我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文 参考訳(メタデータ) (2023-10-20T03:22:05Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。