論文の概要: Using Left and Right Brains Together: Towards Vision and Language
Planning
- arxiv url: http://arxiv.org/abs/2402.10534v1
- Date: Fri, 16 Feb 2024 09:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:50:59.283126
- Title: Using Left and Right Brains Together: Towards Vision and Language
Planning
- Title(参考訳): 左右の脳を一緒に使う:ビジョンと言語計画に向けて
- Authors: Jun Cen, Chenfei Wu, Xiao Liu, Shengming Yin, Yixuan Pei, Jinglong
Yang, Qifeng Chen, Nan Duan, Jianguo Zhang
- Abstract要約: 本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
- 参考スコア(独自算出の注目度): 95.47128850991815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) and Large Multi-modality Models (LMMs) have
demonstrated remarkable decision masking capabilities on a variety of tasks.
However, they inherently operate planning within the language space, lacking
the vision and spatial imagination ability. In contrast, humans utilize both
left and right hemispheres of the brain for language and visual planning during
the thinking process. Therefore, we introduce a novel vision-language planning
framework in this work to perform concurrent visual and language planning for
tasks with inputs of any form. Our framework incorporates visual planning to
capture intricate environmental details, while language planning enhances the
logical coherence of the overall system. We evaluate the effectiveness of our
framework across vision-language tasks, vision-only tasks, and language-only
tasks. The results demonstrate the superior performance of our approach,
indicating that the integration of visual and language planning yields better
contextually aware task execution.
- Abstract(参考訳): large language model (llms) と large multi-modality models (lmms) は様々なタスクにおいて顕著な決定マスキング能力を示している。
しかし、本質的には言語空間内で計画を行い、視覚と空間的想像力に欠ける。
対照的に、人は思考過程において言語や視覚計画のために脳の左右の半球を利用する。
そこで本研究では,任意の形式の入力を伴うタスクに対して,視覚と言語を同時に計画する,新しい視覚言語計画フレームワークを提案する。
本フレームワークでは,複雑な環境情報を取得するためのビジュアルプランニングを取り入れ,言語プランニングによりシステム全体の論理的一貫性が向上する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクのフレームワークの有効性を評価する。
その結果,視覚計画と言語計画の統合により,文脈に配慮したタスク実行が向上することが示された。
関連論文リスト
- VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning [36.131648635051334]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。
本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。
我々のフレームワークは、未確認のタスクトラジェクトリ、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを示します。
論文 参考訳(メタデータ) (2023-10-05T05:41:21Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - Augmenting Vision Language Pretraining by Learning Codebook with Visual
Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。
次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。
実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-31T17:36:09Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。