論文の概要: Interleaved-Modal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2411.19488v2
- Date: Mon, 17 Mar 2025 09:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.15387
- Title: Interleaved-Modal Chain-of-Thought
- Title(参考訳): Interleaved-Modal Chain-of-Thought
- Authors: Jun Gao, Yongqi Li, Ziqiang Cao, Wenjie Li,
- Abstract要約: チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。
我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。
ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
- 参考スコア(独自算出の注目度): 14.342351827047862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting elicits large language models (LLMs) to produce a series of intermediate reasoning steps before arriving at the final answer. However, when transitioning to vision-language models (VLMs), their text-only rationales struggle to express the fine-grained associations with the original image. In this paper, we propose an image-incorporated multimodal Chain-of-Thought, named \textbf{Interleaved-modal Chain-of-Thought (ICoT)}, which generates sequential reasoning steps consisting of paired visual and textual rationales to infer the final answer. Intuitively, the novel ICoT requires VLMs to enable the generation of fine-grained interleaved-modal content, which is hard for current VLMs to fulfill. Considering that the required visual information is usually part of the input image, we propose \textbf{Attention-driven Selection (ADS)} to realize ICoT over existing VLMs. ADS intelligently inserts regions of the input image to generate the interleaved-modal reasoning steps with ignorable additional latency. ADS relies solely on the attention map of VLMs without the need for parameterization, and therefore it is a plug-and-play strategy that can be generalized to a spectrum of VLMs. We apply ADS to realize ICoT on two popular VLMs of different architectures. Extensive evaluations of three benchmarks have shown that ICoT prompting achieves substantial performance (up to 14\%) and interpretability improvements compared to existing multimodal CoT prompting methods.
- Abstract(参考訳): CoT(Chain-of-Thought)は,大規模言語モデル(LLM)を最終回答に到達する前に,一連の中間推論ステップを生成するように促す。
しかし、視覚言語モデル(VLM)に移行する際には、テキストのみの理性は元の画像との微妙な関連を表現するのに苦労する。
本稿では,2つの視覚的およびテキスト的合理性からなる逐次的推論ステップを生成し,最終的な答えを推測する,イメージを組み込んだマルチモーダル・チェイン・オブ・ソート(“textbf{Interleaved-modal Chain-of-Thought”)を提案する。
直感的には、新しいICoTは、現在のVLMが満たすのが困難である細粒なインターリーブド・モーダルコンテンツの生成を可能にするために、VLMを必要とする。
必要な視覚情報が通常入力画像の一部であることを考慮し、既存のVLM上でICoTを実現するために、textbf{Attention-driven Selection (ADS)を提案する。
ADSは入力画像の領域をインテリジェントに挿入し、追加のレイテンシを無視せずにインターリーブモード推論ステップを生成する。
ADSはパラメータ化を必要とせずにVLMのアテンションマップにのみ依存するため、VLMのスペクトルに一般化できるプラグ・アンド・プレイ戦略である。
我々は、異なるアーキテクチャの2つの人気のあるVLM上でICoTを実現するためにADSを適用した。
3つのベンチマークを総合的に評価したところ、ICoTプロンプトは既存のマルチモーダルCoTプロンプト法と比較して大きな性能(最大14\%)と解釈可能性の向上を実現している。
関連論文リスト
- Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。
本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。