論文の概要: History-Guided Iterative Visual Reasoning with Self-Correction
- arxiv url: http://arxiv.org/abs/2602.04413v1
- Date: Wed, 04 Feb 2026 10:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.485844
- Title: History-Guided Iterative Visual Reasoning with Self-Correction
- Title(参考訳): 自己補正による履歴ガイドによる反復的視覚推論
- Authors: Xinglong Yang, Zhilin Peng, Zhanzhan Liu, Haochen Shi, Sheng-Jun Huang,
- Abstract要約: 大きな言語モデル(MLLM)の推論信頼性を向上させるための自己整合性手法
本稿では,繰り返し検証と動的誤り訂正の人間の推論行動に触発されたH-GIVRフレームワークを提案する。
このフレームワークは計算コストを低く保ちながら、クロスモーダル推論精度を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 29.952971071458574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-consistency methods are the core technique for improving the reasoning reliability of multimodal large language models (MLLMs). By generating multiple reasoning results through repeated sampling and selecting the best answer via voting, they play an important role in cross-modal tasks. However, most existing self-consistency methods are limited to a fixed ``repeated sampling and voting'' paradigm and do not reuse historical reasoning information. As a result, models struggle to actively correct visual understanding errors and dynamically adjust their reasoning during iteration. Inspired by the human reasoning behavior of repeated verification and dynamic error correction, we propose the H-GIVR framework. During iterative reasoning, the MLLM observes the image multiple times and uses previously generated answers as references for subsequent steps, enabling dynamic correction of errors and improving answer accuracy. We conduct comprehensive experiments on five datasets and three models. The results show that the H-GIVR framework can significantly improve cross-modal reasoning accuracy while maintaining low computational cost. For instance, using \texttt{Llama3.2-vision:11b} on the ScienceQA dataset, the model requires an average of 2.57 responses per question to achieve an accuracy of 78.90\%, representing a 107\% improvement over the baseline.
- Abstract(参考訳): 自己整合性手法はマルチモーダル大言語モデル(MLLM)の推論信頼性を向上させるための中核的な手法である。
繰り返しサンプリングして複数の推論結果を生成し,投票による最良の回答を選択することで,クロスモーダルタスクにおいて重要な役割を果たす。
しかし,既存の自己整合性手法は「繰り返しサンプリングと投票」のパラダイムに限られており,歴史的推論情報の再利用はできない。
その結果、モデルは視覚的理解の誤りを積極的に修正し、反復中の推論を動的に調整することに苦労する。
繰り返し検証と動的誤り訂正の人間の推論行動に着想を得て,H-GIVRフレームワークを提案する。
反復推論の間、MLLMは画像を複数回観察し、その後ステップの参照として以前に生成された回答を使用し、エラーの動的修正を可能にし、回答精度を向上させる。
5つのデータセットと3つのモデルに関する包括的な実験を行います。
その結果,H-GIVRフレームワークは計算コストを低く抑えつつ,モーダル間推論の精度を大幅に向上させることができることがわかった。
例えば、ScienceQAデータセットで \texttt{Llama3.2-vision:11b} を使用する場合、ベースラインよりも107\%改善した78.90\%の精度を達成するためには、平均2.57の応答が必要である。
関連論文リスト
- MMErroR: A Benchmark for Erroneous Reasoning in Vision-Language Models [29.830224745428566]
2,013個のサンプルを1つのコヒーレントな推論誤差に埋め込んだベンチマークであるMMErroRを提案する。
MMErroRは、回答の正しさに焦点を当てた既存のベンチマークとは異なり、プロセスレベル、エラー中心の評価をターゲットにしている。
最良モデル(Gemini-3.0-Pro)でさえ、66.47%のケースでエラーを分類する。
論文 参考訳(メタデータ) (2026-01-06T17:45:26Z) - ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimodal Large Language Models [23.37951284612929]
動的知覚、科学的推論、具体化された意思決定ドメインにまたがる30K以上のインスタンスのデータセットを構築します。
ViRectifyでは、MLLMに対してステップワイドな誤り識別を行い、重要なビデオ証拠を根拠とした合理性を生成する。
また,視覚的エビデンスに基づく補正手法として,段階的誤り軌道と報酬モデルを組み合わせた軌道証拠駆動補正手法を提案する。
論文 参考訳(メタデータ) (2025-12-01T09:05:02Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Representation Consistency for Accurate and Coherent LLM Answer Aggregation [31.694036998078264]
表現整合性(英: representation consistency, RC)は、大規模言語モデルの複数の候補応答から引き出された回答を集約するテスト時間スケーリング手法である。
RCは、各応答集合における各応答の発生数を考慮することにより、回答集約を強化する。
キャッシュされたアクティベーションと軽量な類似性計算のみを使用し,追加のモデルクエリを必要としない。
論文 参考訳(メタデータ) (2025-06-18T05:07:47Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。