論文の概要: BBA: Bi-Modal Behavioral Alignment for Reasoning with Large
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.13577v1
- Date: Wed, 21 Feb 2024 07:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:47:04.622306
- Title: BBA: Bi-Modal Behavioral Alignment for Reasoning with Large
Vision-Language Models
- Title(参考訳): BBA:大規模視覚言語モデルを用いた推論のためのバイモーダルな行動アライメント
- Authors: Xueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong,
Lemao Liu, Wei Bi, Lingpeng Kong
- Abstract要約: 本稿では,アンダーラインBi-Modal UnderlineBehavioral UnderlineAlignment(BBA)プロンプト法を提案する。
複雑なマルチモーダル推論タスクの強化において、DSLの可能性を最大化するように設計されている。
実験により,BBAは幾何問題解決におけるGPT-4V(ision)の性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 82.79847786739963
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal reasoning stands as a pivotal capability for large vision-language
models (LVLMs). The integration with Domain-Specific Languages (DSL), offering
precise visual representations, equips these models with the opportunity to
execute more accurate reasoning in complex and professional domains. However,
the vanilla Chain-of-Thought (CoT) prompting method faces challenges in
effectively leveraging the unique strengths of visual and DSL representations,
primarily due to their differing reasoning mechanisms. Additionally, it often
falls short in addressing critical steps in multi-step reasoning tasks. To
mitigate these challenges, we introduce the \underline{B}i-Modal
\underline{B}ehavioral \underline{A}lignment (BBA) prompting method, designed
to maximize the potential of DSL in augmenting complex multi-modal reasoning
tasks. This method initiates by guiding LVLMs to create separate reasoning
chains for visual and DSL representations. Subsequently, it aligns these chains
by addressing any inconsistencies, thus achieving a cohesive integration of
behaviors from different modalities. Our experiments demonstrate that BBA
substantially improves the performance of GPT-4V(ision) on geometry problem
solving ($28.34\% \to 34.22\%$), chess positional advantage prediction
($42.08\% \to 46.99\%$) and molecular property prediction ($77.47\% \to
83.52\%$).
- Abstract(参考訳): マルチモーダル推論は、大視野言語モデル(lvlms)の重要な能力である。
ドメイン特化言語(DSL)との統合は、正確な視覚表現を提供し、複雑なドメインと専門ドメインでより正確な推論を実行する機会を提供する。
しかしながら、バニラ・チェーン・オブ・ソート(CoT)の促進手法は、視覚的およびDSL表現のユニークな強みを効果的に活用する上での課題に直面している。
加えて、多段階推論タスクにおける重要なステップに対処するのに不足することが多い。
これらの課題を緩和するために、複雑なマルチモーダル推論タスクの拡張におけるDSLの可能性の最大化を目的とした、 \underline{B}i-Modal \underline{B}ehavioral \underline{A}lignment (BBA) プロンプト手法を導入する。
この手法はLVLMを誘導して視覚およびDSL表現のための別々の推論チェーンを作成する。
その後、いかなる矛盾にも対処してこれらの連鎖を整列させ、異なる様相から振る舞いを凝集的に統合する。
実験により,BBAは幾何問題解決におけるGPT-4V(ision)の性能を著しく向上させる(28.34\% \to 34.22\%$),チェス位置優位予測(42.08\% \to 46.99\%$),分子特性予測(77.47\% \to 83.52\%$)。
関連論文リスト
- Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - Cost-Effective Online Multi-LLM Selection with Versatile Reward Models [30.892090566736652]
大規模言語モデル (LLM) を選択・使用するためのオンラインモデルである textitC2MAB-V を導入する。
textitC2MAB-Vは、様々な報酬モデルを持つ様々な協調タスクタイプに特化している。
textitC2MAB-Vは,3つのアプリケーションシナリオに対して,性能とコスト効率を9つのLLMと効果的にバランスさせることを示す。
論文 参考訳(メタデータ) (2024-05-26T14:38:24Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning [45.517215214938844]
チェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。
マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:39:44Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。