論文の概要: Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds
- arxiv url: http://arxiv.org/abs/2310.13255v2
- Date: Thu, 7 Dec 2023 05:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:11:21.789786
- Title: Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds
- Title(参考訳): steve-eye: オープンワールドにおける llm ベースの体現エージェントと視覚知覚
- Authors: Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu
- Abstract要約: 大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。
LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。
我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
- 参考スコア(独自算出の注目度): 37.22688246779871
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies have presented compelling evidence that large language models
(LLMs) can equip embodied agents with the self-driven capability to interact
with the world, which marks an initial step toward versatile robotics. However,
these efforts tend to overlook the visual richness of open worlds, rendering
the entire interactive process akin to "a blindfolded text-based game."
Consequently, LLM-based agents frequently encounter challenges in intuitively
comprehending their surroundings and producing responses that are easy to
understand. In this paper, we propose Steve-Eye, an end-to-end trained large
multimodal model designed to address this limitation. Steve-Eye integrates the
LLM with a visual encoder which enables it to process visual-text inputs and
generate multimodal feedback. In addition, we use a semi-automatic strategy to
collect an extensive dataset comprising 850K open-world instruction pairs,
empowering our model to encompass three essential functions for an agent:
multimodal perception, foundational knowledge base, and skill prediction and
planning. Lastly, we develop three open-world evaluation benchmarks, then carry
out extensive experiments from a wide range of perspectives to validate our
model's capability to strategically act and plan. Codes and datasets will be
released.
- Abstract(参考訳): 近年の研究では、大型言語モデル(LLM)が、世界と対話する自己駆動能力を持つエンボディエージェントを装備できるという、説得力のある証拠が提示されている。
しかし、これらの取り組みはオープンワールドの視覚的な豊かさを見落とし、「目隠しされたテキストベースのゲーム」のようなインタラクティブなプロセス全体を作り上げる傾向がある。
その結果, LLMをベースとしたエージェントは, 環境を直感的に理解し, 理解しやすい応答を生み出すという課題にしばしば遭遇する。
本稿では,この制限に対処するために,エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
Steve-Eye は LLM とビジュアルエンコーダを統合し、視覚テキスト入力を処理し、マルチモーダルフィードバックを生成する。
さらに,マルチモーダル認識,基礎知識ベース,スキル予測と計画という,エージェントに不可欠な3つの機能を含む,850Kのオープンワールド命令ペアからなる広範なデータセットを半自動で収集する。
最後に、我々は3つのオープンワールド評価ベンチマークを開発し、戦略的な行動と計画の能力を検証するため、幅広い視点から広範な実験を行う。
コードとデータセットがリリースされる。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework [47.58359136198136]
我々は、最新技術基盤モデルの統合と自動化を行うためにVisionGPTを導入する。
VisionGPTは一般化されたマルチモーダルフレームワーク上に構築されており、3つの重要な特徴を区別している。
本稿では,ビジョンGPTのアーキテクチャと能力について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:39:40Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。