Fugu-MT 論文翻訳(概要): Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

論文の概要: Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions

arxiv url: http://arxiv.org/abs/2308.04152v2
Date: Thu, 10 Aug 2023 07:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 15:08:39.303680
Title: Empowering Vision-Language Models to Follow Interleaved Vision-Language Instructions
Title（参考訳）: ビジョンランゲージモデルを用いたインターリーブ型ビジョンランゲージ指導
Authors: Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Hanwang Zhang, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Yueting Zhuang
Abstract要約: 最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。既存の手法は主に、1つのイメージを視覚的コンテキストとする限られたタイプの命令に焦点を当てており、MLLMの普及を妨げている。本稿では,トランスフォーマーをベースとしたMLLMであるCheetorについて述べる。
参考スコア（独自算出の注目度）: 122.37848530066239
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have recently sparked significant interest, which demonstrates emergent capabilities to serve as a general-purpose model for various vision-language tasks. However, existing methods mainly focus on limited types of instructions with a single image as visual context, which hinders the widespread availability of MLLMs. In this paper, we introduce the I4 benchmark to comprehensively evaluate the instruction following ability on complicated interleaved vision-language instructions, which involve intricate image-text sequential context, covering a diverse range of scenarios (e.g., visually-rich webpages/textbooks, lecture slides, embodied dialogue). Systematic evaluation on our I4 benchmark reveals a common defect of existing methods: the Visual Prompt Generator (VPG) trained on image-captioning alignment objective tends to attend to common foreground information for captioning but struggles to extract specific information required by particular tasks. To address this issue, we propose a generic and lightweight controllable knowledge re-injection module, which utilizes the sophisticated reasoning ability of LLMs to control the VPG to conditionally extract instruction-specific visual information and re-inject it into the LLM. Further, we introduce an annotation-free cross-attention guided counterfactual image training strategy to methodically learn the proposed module by collaborating a cascade of foundation models. Enhanced by the proposed module and training strategy, we present Cheetor, a Transformer-based MLLM that can effectively handle a wide variety of interleaved vision-language instructions and achieves state-of-the-art zero-shot performance across all tasks of I4, without high-quality multimodal instruction tuning data. Cheetor also exhibits competitive performance compared with state-of-the-art instruction tuned models on MME benchmark.
Abstract（参考訳）: 最近、MLLM(Multimodal Large Language Models)が大きな関心を集め、様々な視覚言語タスクの汎用モデルとして機能する創発的な能力を示している。しかし、既存の手法は主に、MLLMの普及を妨げる視覚的コンテキストとして単一のイメージを持つ限られたタイプの命令に焦点を当てている。本稿では,視覚に豊かなWebページ/テキスト,講義スライド,エンボディダイアログなど,さまざまなシナリオをカバーする複雑な画像テキストシーケンシャルなコンテキストを含む複雑な視覚言語命令に対する命令に従う能力を総合的に評価するI4ベンチマークを提案する。画像キャプションのアライメントを目標とするVisual Prompt Generator (VPG)は、キャプションのための一般的なフォアグラウンド情報に出席する傾向にあるが、特定のタスクに必要な特定の情報を抽出するのに苦労する。本稿では,LLMの高度な推論能力を利用してVPGを制御し,命令固有の視覚情報を条件付きで抽出し,LLMに再注入する汎用的で軽量な知識再注入モジュールを提案する。さらに,基礎モデルのカスケードを協調させることにより,提案モジュールを体系的に学習するための,アノテーションフリーな対物画像学習戦略を提案する。提案したモジュールとトレーニング戦略によって強化されたCheetorは、トランスフォーマーベースのMLLMで、多種多様な視覚言語命令を効果的に処理し、高品質なマルチモーダル命令チューニングデータなしで、I4の全タスクで最先端のゼロショット性能を実現する。 Cheetorはまた、MMEベンチマークの最先端の命令調律モデルと比較して、競合性能を示している。

関連論文リスト

Vision-Centric Activation and Coordination for Multimodal Large Language Models [42.26911585599856]
マルチモーダルな大言語モデル(MLLM)は、視覚エンコーダからLLMへのイメージ機能を統合し、高度な理解能力を示す。しかし、メインストリームMLLMは、重要な視覚中心の情報を無視して、テキストトークンの次のトークン予測によってのみ監督される。本稿では,ビジョン中心のアクティベーションとコーディネーションによってMLLM表現を最適化するVaCoを紹介する。
論文参考訳（メタデータ） (2025-10-16T06:38:39Z)
Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文参考訳（メタデータ） (2025-06-26T05:28:57Z)
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-20T18:59:59Z)
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文参考訳（メタデータ） (2024-11-17T13:08:29Z)
PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文参考訳（メタデータ） (2024-10-30T15:05:17Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文参考訳（メタデータ） (2024-03-21T18:00:00Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Aligned with LLM: a new multi-modal training paradigm for encoding fMRI activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2024-01-08T12:30:23Z)
Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-08T06:51:15Z)
Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文参考訳（メタデータ） (2023-05-10T17:52:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。