論文の概要: Finding the Cracks: Improving LLMs Reasoning with Paraphrastic Probing and Consistency Verification
- arxiv url: http://arxiv.org/abs/2602.11361v1
- Date: Wed, 11 Feb 2026 20:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.538462
- Title: Finding the Cracks: Improving LLMs Reasoning with Paraphrastic Probing and Consistency Verification
- Title(参考訳): ひび割れの発見:パラフラスティック・プロブリングと一貫性検証によるLCMの推論の改善
- Authors: Weili Shi, Dongliang Guo, Lehan Yang, Tianlong Wang, Hanzhang Yuan, Sheng Li,
- Abstract要約: 大規模言語モデルは、様々な推論タスクで印象的なパフォーマンスを示している。
最近の研究は批判的トークンの概念を導入し、その後のステップに大きな影響を及ぼす推論プロセスに焦点をあてている。
本稿では,重要なトークンを確実に識別し,活用するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.253470382293614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated impressive performance across a variety of reasoning tasks. However, their problem-solving ability often declines on more complex tasks due to hallucinations and the accumulation of errors within these intermediate steps. Recent work has introduced the notion of critical tokens--tokens in the reasoning process that exert significant influence on subsequent steps. Prior studies suggest that replacing critical tokens can refine reasoning trajectories. Nonetheless, reliably identifying and exploiting critical tokens remains challenging. To address this, we propose the Paraphrastic Probing and Consistency Verification~(PPCV) framework. PPCV operates in two stages. In the first stage, we roll out an initial reasoning path from the original question and then concatenate paraphrased versions of the question with this reasoning path. And we identify critical tokens based on mismatches between the predicted top-1 token and the expected token in the reasoning path. A criterion is employed to confirm the final critical token. In the second stage, we substitute critical tokens with candidate alternatives and roll out new reasoning paths for both the original and paraphrased questions. The final answer is determined by checking the consistency of outputs across these parallel reasoning processes. We evaluate PPCV on mainstream LLMs across multiple benchmarks. Extensive experiments demonstrate PPCV substantially enhances the reasoning performance of LLMs compared to baselines.
- Abstract(参考訳): 大規模言語モデルは、様々な推論タスクで印象的なパフォーマンスを示している。
しかしながら、それらの問題解決能力は、幻覚やこれらの中間段階における誤りの蓄積により、より複雑なタスクにおいて低下することが多い。
最近の研究は批判的トークンの概念を導入し、その後のステップに大きな影響を及ぼす推論プロセスに焦点をあてている。
以前の研究では、重要なトークンを置き換えることは推論軌道を洗練させることが示唆された。
それでも、重要なトークンを確実に識別し、活用することは依然として難しい。
そこで我々は,Paraphrastic Probing and Consistency Verification~(PPCV)フレームワークを提案する。
PPCVは2段階ある。
最初の段階では、最初の質問から最初の推論パスをロールアウトし、その質問のパラフレーズ化されたバージョンとこの推論パスを連結する。
また,予測されたトップ-1トークンと予測されたトークンとのミスマッチに基づいたクリティカルトークンを推論経路で同定する。
最終臨界トークンを確認するために基準が使用される。
第2段階では、クリティカルトークンを候補代替品に置換し、原文とパラフレーズの両方の質問に対して新しい推論パスをロールアウトする。
最終的な答えは、これらの並列推論プロセスにおける出力の整合性をチェックすることで決定される。
PPCVを複数のベンチマークで評価した。
PPCVはベースラインに比べてLCMの推理性能を著しく向上させる。
関連論文リスト
- One-Token Verification for Reasoning Correctness Estimation [31.590898058475464]
ワンツーケン検証(One-Token Verification、OTV)は、生成中の1つの前方通過における正当性を推定する計算手法である。
OTVは、既存のバリデーションを一貫して上回り、正当性誘導早期終了によりトークン使用量を最大90%削減する。
論文 参考訳(メタデータ) (2026-03-01T10:09:58Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。
これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。
トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-10-23T14:30:37Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Causal Prompting for Implicit Sentiment Analysis with Large Language Models [21.39152516811571]
Implicit Sentiment Analysis (ISA) は、明示的に述べられるのではなく、示唆される感情を推測することを目的としている。
近年,Large Language Models (LLMs) を用いたプロンプトベースの手法がISAで実現されている。
我々は,CoT推論に正面調整を組み込んだ因果的プロンプトフレームワークであるCAPITALを提案する。
論文 参考訳(メタデータ) (2025-07-01T03:01:09Z) - Read Before You Think: Mitigating LLM Comprehension Failures with Step-by-Step Reading [2.073147245888634]
大きな言語モデル(LLM)は、問題理解の欠陥によって複雑な推論タスクで失敗することが多い。
本稿では,これらの理解障害について,系統的研究を行う。
本稿では,ステップ・バイ・ステップ・レディング(SSR)ファミリについて紹介する。
論文 参考訳(メタデータ) (2025-04-13T02:10:18Z) - Language Model Uncertainty Quantification with Attention Chain [9.093726246465117]
大規模言語モデル(LLM)の予測の不確実性は、その答えの信頼性を判断するために重要である。
UQACは,推論空間をトラクタブルなサイズに縮小し,限界化を実現するための効率的な手法である。
先進的なオープンソース LLM を用いた複数の推論ベンチマークにおいて,UQAC の有効性を検証した。
論文 参考訳(メタデータ) (2025-03-24T21:43:47Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。