論文の概要: Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank
- arxiv url: http://arxiv.org/abs/2510.24299v1
- Date: Tue, 28 Oct 2025 11:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.086478
- Title: Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank
- Title(参考訳): 相関行列ランクによる大言語モデルの推論経路の検証
- Authors: Jiayu Liu, Wei Dai, Zhenya Huang, Ning Miao, Enhong Chen,
- Abstract要約: 大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
- 参考スコア(独自算出の注目度): 71.09032766271493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the strong reasoning ability of large language models~(LLMs), they are prone to errors and hallucinations. As a result, how to check their outputs effectively and efficiently has become a critical problem in their applications. Existing checking methods heavily rely on external resources, such as trained verifiers (e.g., process/outcome reward models) or elaborate prompts, which lead to high computational overhead and are only applicable to specific domains. In this paper, we investigate whether the internal behaviors of LLMs have already implied the credibility of their reasoning paths. Specifically, we find that the rank of the correlation matrix between the input problem and the output reasoning path is a robust indicator of reasoning correctness. Different from other correctness indicators for LLMs, the calculation of the correlation matrix only relies on the LLM itself, which avoids the hassle of training a separate model or designing complicated prompts. Based on it, we design a simple, plug-and-play Self-Indicator method to reweight candidate reasoning paths, which achieves significant performance improvements than other voting and verification methods with very few computational overhead. Our experiments across multiple LLMs of varying scales and model families have further shown the effectiveness of Self-Indicator. It achieves over 75% accuracy in distinguishing correct reasoning paths from incorrect ones, and, in turn, improves the accuracies on three reasoning benchmarks by more than 8%.
- Abstract(参考訳): 大きな言語モデル~(LLM)の強い推論能力にもかかわらず、エラーや幻覚を起こしやすい。
その結果,効率よく効率よくアウトプットをチェックする方法がアプリケーションにとって重要な問題となっている。
既存のチェック手法は、訓練された検証者(例えば、プロセス/アウトカム報酬モデル)や精巧なプロンプトなど外部リソースに大きく依存しており、高い計算オーバーヘッドをもたらし、特定のドメインにのみ適用できる。
本稿では, LLMの内部挙動がすでにその推論経路の信頼性を示唆しているかどうかを考察する。
具体的には、入力問題と出力推論経路の相関行列のランクが、推論の正確性を示す頑健な指標であることが分かる。
LLMの他の正当性指標と異なり、相関行列の計算はLLM自体にのみ依存しており、異なるモデルのトレーニングや複雑なプロンプトの設計の面倒さを回避している。
提案手法は,計算オーバーヘッドが少ない他の投票手法や検証手法に比べて,大幅な性能向上を実現し,予測経路の重み付けを行うための簡易なプラグアンドプレイセルフインデックス手法を設計する。
様々なスケールのLLMとモデルファミリーを対象とした実験により,自己指標の有効性がさらに示された。
正しい推論パスと間違った推論パスを区別する精度を75%以上達成し、3つの推論ベンチマークの精度を8%以上向上させる。
関連論文リスト
- Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。
本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。
その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-17T02:40:19Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。