論文の概要: Large Language Models are Visual Reasoning Coordinators
- arxiv url: http://arxiv.org/abs/2310.15166v1
- Date: Mon, 23 Oct 2023 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 17:56:36.706907
- Title: Large Language Models are Visual Reasoning Coordinators
- Title(参考訳): 大きな言語モデルは視覚的推論コーディネータです
- Authors: Liangyu Chen, Bo Li, Sheng Shen, Jingkang Yang, Chunyuan Li, Kurt
Keutzer, Trevor Darrell, Ziwei Liu
- Abstract要約: 視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。
提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。
また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
- 参考スコア(独自算出の注目度): 144.67558375045755
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual reasoning requires multimodal perception and commonsense cognition of
the world. Recently, multiple vision-language models (VLMs) have been proposed
with excellent commonsense reasoning ability in various domains. However, how
to harness the collective power of these complementary VLMs is rarely explored.
Existing methods like ensemble still struggle to aggregate these models with
the desired higher-order communications. In this work, we propose Cola, a novel
paradigm that coordinates multiple VLMs for visual reasoning. Our key insight
is that a large language model (LLM) can efficiently coordinate multiple VLMs
by facilitating natural language communication that leverages their distinct
and complementary capabilities. Extensive experiments demonstrate that our
instruction tuning variant, Cola-FT, achieves state-of-the-art performance on
visual question answering (VQA), outside knowledge VQA, visual entailment, and
visual spatial reasoning tasks. Moreover, we show that our in-context learning
variant, Cola-Zero, exhibits competitive performance in zero and few-shot
settings, without finetuning. Through systematic ablation studies and
visualizations, we validate that a coordinator LLM indeed comprehends the
instruction prompts as well as the separate functionalities of VLMs; it then
coordinates them to enable impressive visual reasoning capabilities.
- Abstract(参考訳): 視覚的推論は、多様知覚と世界の常識認識を必要とする。
近年、様々な領域において、優れた常識推論能力を持つ複数の視覚言語モデル(vlms)が提案されている。
しかしながら、これらの相補的なVLMの集団的力を利用する方法はほとんど研究されていない。
アンサンブルのような既存の手法は、望ましい高次通信でこれらのモデルを集約するのに苦労している。
本研究では,視覚的推論のために複数のVLMを協調する新しいパラダイムであるColaを提案する。
我々の重要な洞察は、大きな言語モデル(LLM)が、その特徴と相補的な能力を活用する自然言語通信を容易にすることで、複数のVLMを効率的に調整できるということです。
広汎な実験により,視覚的質問応答(VQA),外部知識VQA,視覚的エンタテインメント,視覚的空間推論タスクにおいて,我々の指導チューニング変種であるCola-FTが最先端のパフォーマンスを達成することが示された。
さらに,我々の学習モデルであるcola-zeroは,微調整することなく,ゼロおよび少数ショット設定で競争性能を示すことを示した。
組織的アブレーション研究と可視化を通して、コーディネータ LLM が実際に命令プロンプトとVLMの分離機能を理解していることを検証する。
関連論文リスト
- Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Can VLMs be used on videos for action recognition? LLMs are Visual Reasoning Coordinators [0.0]
本稿では,大規模言語モデル (LLM) が,自然言語通信によって複数の視覚言語モデル (VLM) を効率的にコーディネートする方法を示す。
本研究は,同手法が行動認識のための監視ビデオに適用できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-20T10:26:28Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。