Fugu-MT 論文翻訳(概要): Using Left and Right Brains Together: Towards Vision and Language Planning

論文の概要: Using Left and Right Brains Together: Towards Vision and Language Planning

arxiv url: http://arxiv.org/abs/2402.10534v1
Date: Fri, 16 Feb 2024 09:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:50:59.283126
Title: Using Left and Right Brains Together: Towards Vision and Language Planning
Title（参考訳）: 左右の脳を一緒に使う:ビジョンと言語計画に向けて
Authors: Jun Cen, Chenfei Wu, Xiao Liu, Shengming Yin, Yixuan Pei, Jinglong Yang, Qifeng Chen, Nan Duan, Jianguo Zhang
Abstract要約: 本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
参考スコア（独自算出の注目度）: 95.47128850991815
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) and Large Multi-modality Models (LMMs) have demonstrated remarkable decision masking capabilities on a variety of tasks. However, they inherently operate planning within the language space, lacking the vision and spatial imagination ability. In contrast, humans utilize both left and right hemispheres of the brain for language and visual planning during the thinking process. Therefore, we introduce a novel vision-language planning framework in this work to perform concurrent visual and language planning for tasks with inputs of any form. Our framework incorporates visual planning to capture intricate environmental details, while language planning enhances the logical coherence of the overall system. We evaluate the effectiveness of our framework across vision-language tasks, vision-only tasks, and language-only tasks. The results demonstrate the superior performance of our approach, indicating that the integration of visual and language planning yields better contextually aware task execution.
Abstract（参考訳）: large language model (llms) と large multi-modality models (lmms) は様々なタスクにおいて顕著な決定マスキング能力を示している。しかし、本質的には言語空間内で計画を行い、視覚と空間的想像力に欠ける。対照的に、人は思考過程において言語や視覚計画のために脳の左右の半球を利用する。そこで本研究では,任意の形式の入力を伴うタスクに対して,視覚と言語を同時に計画する,新しい視覚言語計画フレームワークを提案する。本フレームワークでは,複雑な環境情報を取得するためのビジュアルプランニングを取り入れ,言語プランニングによりシステム全体の論理的一貫性が向上する。我々は,視覚言語タスク,視覚のみタスク,言語のみタスクのフレームワークの有効性を評価する。その結果,視覚計画と言語計画の統合により,文脈に配慮したタスク実行が向上することが示された。

関連論文リスト

Visual Planning: Let's Think Only with Images [30.67065689757505]
我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。そこで本研究では,テキストから独立して,純粋に視覚的な表現によるプランニングを可能にする,ビジュアルプランニングという新たなパラダイムを提案する。このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
論文参考訳（メタデータ） (2025-05-16T16:17:22Z)
UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface [25.898592418636603]
textbfOpen-ended言語インターフェースを通じて、textbfFineの粒度の視覚的知覚タスクをTextbfUnifyするフレームワークである。オブジェクトレベルの検出、ピクセルレベルのセグメンテーション、イメージレベルの視覚言語タスクを単一のモデルに統合する。私たちのフレームワークは、きめ細かい認識と視覚言語タスクのギャップを埋め、アーキテクチャ設計とトレーニング戦略を大幅に単純化します。
論文参考訳（メタデータ） (2025-03-03T09:27:24Z)
Generative Visual Communication in the Era of Vision-Language Models [9.229067992381763]
今日の視覚的に飽和した世界では、効果的なデザインはグラフィックデザインの原則を理解する必要がある。この論文は、視覚言語モデルにおける最近の進歩をいかに活用し、効果的な視覚コミュニケーション設計の自動化を図っている。
論文参考訳（メタデータ） (2024-11-27T20:04:31Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-05-14T23:24:12Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)
Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning [36.131648635051334]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。我々のフレームワークは、未確認のタスクトラジェクトリ、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを示します。
論文参考訳（メタデータ） (2023-10-05T05:41:21Z)
Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。 IMMOは内的モノローグ過程をシミュレートする。その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文参考訳（メタデータ） (2023-08-19T10:10:49Z)
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文参考訳（メタデータ） (2023-05-18T17:59:42Z)
Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics [29.393661499333284]
本稿では,各視覚トークンに意味を付与するコードブックを共同で学習することで,視覚表現を「分散化」することを提案する。次に、これらの離散化された視覚的意味論を自己教師付き基盤構造として利用して、マスケッド画像モデリングの目的を構築する。実験は、一般的な視覚言語ベンチマークにまたがって、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2022-07-31T17:36:09Z)
Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文参考訳（メタデータ） (2022-04-18T17:23:11Z)
Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文参考訳（メタデータ） (2019-12-26T14:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。