Fugu-MT 論文翻訳(概要): Interleaved-Modal Chain-of-Thought

論文の概要: Interleaved-Modal Chain-of-Thought

arxiv url: http://arxiv.org/abs/2411.19488v2
Date: Mon, 17 Mar 2025 09:01:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.15387
Title: Interleaved-Modal Chain-of-Thought
Title（参考訳）: Interleaved-Modal Chain-of-Thought
Authors: Jun Gao, Yongqi Li, Ziqiang Cao, Wenjie Li,
Abstract要約: チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。 ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
参考スコア（独自算出の注目度）: 14.342351827047862
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chain-of-Thought (CoT) prompting elicits large language models (LLMs) to produce a series of intermediate reasoning steps before arriving at the final answer. However, when transitioning to vision-language models (VLMs), their text-only rationales struggle to express the fine-grained associations with the original image. In this paper, we propose an image-incorporated multimodal Chain-of-Thought, named \textbf{Interleaved-modal Chain-of-Thought (ICoT)}, which generates sequential reasoning steps consisting of paired visual and textual rationales to infer the final answer. Intuitively, the novel ICoT requires VLMs to enable the generation of fine-grained interleaved-modal content, which is hard for current VLMs to fulfill. Considering that the required visual information is usually part of the input image, we propose \textbf{Attention-driven Selection (ADS)} to realize ICoT over existing VLMs. ADS intelligently inserts regions of the input image to generate the interleaved-modal reasoning steps with ignorable additional latency. ADS relies solely on the attention map of VLMs without the need for parameterization, and therefore it is a plug-and-play strategy that can be generalized to a spectrum of VLMs. We apply ADS to realize ICoT on two popular VLMs of different architectures. Extensive evaluations of three benchmarks have shown that ICoT prompting achieves substantial performance (up to 14\%) and interpretability improvements compared to existing multimodal CoT prompting methods.
Abstract（参考訳）: CoT(Chain-of-Thought)は,大規模言語モデル(LLM)を最終回答に到達する前に,一連の中間推論ステップを生成するように促す。しかし、視覚言語モデル(VLM)に移行する際には、テキストのみの理性は元の画像との微妙な関連を表現するのに苦労する。本稿では,2つの視覚的およびテキスト的合理性からなる逐次的推論ステップを生成し,最終的な答えを推測する,イメージを組み込んだマルチモーダル・チェイン・オブ・ソート(“textbf{Interleaved-modal Chain-of-Thought”)を提案する。直感的には、新しいICoTは、現在のVLMが満たすのが困難である細粒なインターリーブド・モーダルコンテンツの生成を可能にするために、VLMを必要とする。必要な視覚情報が通常入力画像の一部であることを考慮し、既存のVLM上でICoTを実現するために、textbf{Attention-driven Selection (ADS)を提案する。 ADSは入力画像の領域をインテリジェントに挿入し、追加のレイテンシを無視せずにインターリーブモード推論ステップを生成する。 ADSはパラメータ化を必要とせずにVLMのアテンションマップにのみ依存するため、VLMのスペクトルに一般化できるプラグ・アンド・プレイ戦略である。我々は、異なるアーキテクチャの2つの人気のあるVLM上でICoTを実現するためにADSを適用した。 3つのベンチマークを総合的に評価したところ、ICoTプロンプトは既存のマルチモーダルCoTプロンプト法と比較して大きな性能(最大14\%)と解釈可能性の向上を実現している。

関連論文リスト

Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文参考訳（メタデータ） (2025-07-11T13:38:01Z)
Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought [11.538345159297839]
チェーン・オブ・シンクレット(CoT)プロンプトは、多モーダル推論を強化するために、大きな視覚言語モデル(LLM)に適応している。既存のLVLMは、CoT推論において生成された有理性の内容を無視していることが多い。本稿では,新しいプラグイン・アンド・プレイ型推論時間復号法である理性強化復号法(RED)を提案する。
論文参考訳（メタデータ） (2025-07-10T12:07:13Z)
Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-03-19T03:20:03Z)
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。 QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文参考訳（メタデータ） (2025-03-11T17:59:57Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [18.855378039713678]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文参考訳（メタデータ） (2024-12-17T14:10:16Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。 ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文参考訳（メタデータ） (2024-04-18T02:40:31Z)
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。 438k問合せ対からなる大規模Visual CoTデータセットを提案する。視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文参考訳（メタデータ） (2024-03-25T17:59:23Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。しかし、複数の画像を含む文脈を理解するには不十分である。本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文参考訳（メタデータ） (2024-02-19T14:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。