論文の概要: Reliable Thinking with Images
- arxiv url: http://arxiv.org/abs/2602.12916v1
- Date: Fri, 13 Feb 2026 13:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.962852
- Title: Reliable Thinking with Images
- Title(参考訳): 画像による信頼性の高い思考
- Authors: Haobin Li, Yutong Yang, Yijie Lin, Dai Xiang, Mouxing Yang, Xi Peng,
- Abstract要約: ノイズ思考(Nuisy Thinking、NT)は、不完全な視覚的手がかりのマイニングと答え推論のプロセスを指す。
RTWI(Reliable Thinking with Images)と呼ばれる新しい手法を提案する。
RTWIは、統一されたテキスト中心の方法で視覚的手がかりとテキストCoTの信頼性を推定する。
- 参考スコア(独自算出の注目度): 20.222642196607563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a multimodal extension of Chain-of-Thought (CoT), Thinking with Images (TWI) has recently emerged as a promising avenue to enhance the reasoning capability of Multi-modal Large Language Models (MLLMs), which generates interleaved CoT by incorporating visual cues into the textual reasoning process. However, the success of existing TWI methods heavily relies on the assumption that interleaved image-text CoTs are faultless, which is easily violated in real-world scenarios due to the complexity of multimodal understanding. In this paper, we reveal and study a highly-practical yet under-explored problem in TWI, termed Noisy Thinking (NT). Specifically, NT refers to the imperfect visual cues mining and answer reasoning process. As the saying goes, ``One mistake leads to another'', erroneous interleaved CoT would cause error accumulation, thus significantly degrading the performance of MLLMs. To solve the NT problem, we propose a novel method dubbed Reliable Thinking with Images (RTWI). In brief, RTWI estimates the reliability of visual cues and textual CoT in a unified text-centric manner and accordingly employs robust filtering and voting modules to prevent NT from contaminating the final answer. Extensive experiments on seven benchmarks verify the effectiveness of RTWI against NT.
- Abstract(参考訳): CoT(Chain-of-Thought)のマルチモーダル拡張として、Thinking with Images(TWI)は、近ごろ、多モーダル大規模言語モデル(MLLM)の推論能力を高めるための有望な手段として登場した。
しかし、既存のTWI手法の成功は、インターリーブされた画像テキストCoTが欠陥がないという仮定に大きく依存しており、マルチモーダル理解の複雑さのため、現実のシナリオでは容易に違反する。
本稿では,NT(Noisy Thinking)と呼ばれる,TWIにおける高度に実践的かつ未探索な問題を明らかにし,研究する。
具体的には、NTは不完全な視覚的手がかりのマイニングと回答推論のプロセスを指す。
というように、誤ったインターリーブされたCoTがエラーの蓄積を引き起こし、MLLMのパフォーマンスが著しく低下する。
NT問題を解決するために,RTWI(Reliable Thinking with Images)と呼ばれる新しい手法を提案する。
簡単に言えば、RTWIは、統一されたテキスト中心の方法で視覚的手がかりとテキストCoTの信頼性を推定し、NTが最終回答を汚染しないように、堅牢なフィルタリングと投票モジュールを使用する。
7つのベンチマークの大規模な実験は、NTに対するRTWIの有効性を検証する。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - ContextGuard-LVLM: Enhancing News Veracity through Fine-grained Cross-modal Contextual Consistency Verification [2.012425476229879]
伝統的なアプローチは、細粒度のクロスモーダルなコンテキスト整合性の問題に対処するのに不足している。
先進的な視覚言語大モデルに基づく新しいフレームワークであるContextGuard-LVLMを提案する。
我々のモデルは、強化されたあるいは敵対的な学習パラダイムによって一意に強化されている。
論文 参考訳(メタデータ) (2025-08-08T18:10:24Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness [17.6082037230676]
CoT(Chain-of-Thought)プロンプトは、異なる推論タスクの下で様々なパフォーマンスを示す。
これまでの作業は、それを評価しようとするが、CoTに影響を与えるパターンの詳細な分析を提供するには不足している。
我々は,CoTの有効性が問題困難,情報ゲイン,情報フローなどのパフォーマンス改善に影響を及ぼす重要な要因を同定する。
論文 参考訳(メタデータ) (2024-05-29T09:17:46Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Thread of Thought Unraveling Chaotic Contexts [133.24935874034782]
思考のスレッド(ThoT)戦略は、人間の認知プロセスからインスピレーションを得ている。
実験では、他のプロンプト技術と比較して、ThoTは推論性能を著しく改善する。
論文 参考訳(メタデータ) (2023-11-15T06:54:44Z) - Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context
Reasoning with Language Models [58.41943058963672]
我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。
RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。
GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
論文 参考訳(メタデータ) (2023-06-12T06:34:16Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。