論文の概要: Using Left and Right Brains Together: Towards Vision and Language
Planning
- arxiv url: http://arxiv.org/abs/2402.10534v1
- Date: Fri, 16 Feb 2024 09:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:50:59.283126
- Title: Using Left and Right Brains Together: Towards Vision and Language
Planning
- Title(参考訳): 左右の脳を一緒に使う:ビジョンと言語計画に向けて
- Authors: Jun Cen, Chenfei Wu, Xiao Liu, Shengming Yin, Yixuan Pei, Jinglong
Yang, Qifeng Chen, Nan Duan, Jianguo Zhang
- Abstract要約: 本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
- 参考スコア(独自算出の注目度): 95.47128850991815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) and Large Multi-modality Models (LMMs) have
demonstrated remarkable decision masking capabilities on a variety of tasks.
However, they inherently operate planning within the language space, lacking
the vision and spatial imagination ability. In contrast, humans utilize both
left and right hemispheres of the brain for language and visual planning during
the thinking process. Therefore, we introduce a novel vision-language planning
framework in this work to perform concurrent visual and language planning for
tasks with inputs of any form. Our framework incorporates visual planning to
capture intricate environmental details, while language planning enhances the
logical coherence of the overall system. We evaluate the effectiveness of our
framework across vision-language tasks, vision-only tasks, and language-only
tasks. The results demonstrate the superior performance of our approach,
indicating that the integration of visual and language planning yields better
contextually aware task execution.
- Abstract(参考訳): large language model (llms) と large multi-modality models (lmms) は様々なタスクにおいて顕著な決定マスキング能力を示している。
しかし、本質的には言語空間内で計画を行い、視覚と空間的想像力に欠ける。
対照的に、人は思考過程において言語や視覚計画のために脳の左右の半球を利用する。
そこで本研究では,任意の形式の入力を伴うタスクに対して,視覚と言語を同時に計画する,新しい視覚言語計画フレームワークを提案する。
本フレームワークでは,複雑な環境情報を取得するためのビジュアルプランニングを取り入れ,言語プランニングによりシステム全体の論理的一貫性が向上する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクのフレームワークの有効性を評価する。
その結果,視覚計画と言語計画の統合により,文脈に配慮したタスク実行が向上することが示された。
関連論文リスト
- Multimodal Embodied Interactive Agent for Cafe Scene [86.81802927029976]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and
Comprehension via Semantic-aware Visual Objects [36.49703374567597]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Learning Concept-Based Visual Causal Transition and Symbolic Reasoning
for Visual Planning [39.29343841283777]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。
本稿では,概念学習者 (SCL) と視覚因果遷移モデル (ViCT) で構成される解釈可能で一般化可能な視覚計画フレームワークを提案する。
提案モデルの有効性を検証するため,CCTPと呼ばれるAI2-THORに基づく大規模視覚計画データセットを収集する。
論文 参考訳(メタデータ) (2023-10-05T05:41:21Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - Augmenting Vision Language Pretraining by Learning Codebook with Visual
Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。
次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。
実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-31T17:36:09Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。