論文の概要: Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection
- arxiv url: http://arxiv.org/abs/2601.13735v1
- Date: Tue, 20 Jan 2026 08:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.232217
- Title: Reasoning or Fluency? Dissecting Probabilistic Confidence in Best-of-N Selection
- Title(参考訳): 推論と頻度 : ベスト・オブ・N選択における確率的信頼の分離
- Authors: Hojin Kim, Jaehyung Kim,
- Abstract要約: 本稿では,段階間因果摂動の3つのクラスを導入し,推論ステップ間の依存関係を体系的に破壊する。
選択精度は、これらの破壊の下ではわずかに低下する。
本稿では,ステップ間の因果関係を明確に分離する対照的な因果関係尺度を提案する。
- 参考スコア(独自算出の注目度): 6.612630497074871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probabilistic confidence metrics are increasingly adopted as proxies for reasoning quality in Best-of-N selection, under the assumption that higher confidence reflects higher reasoning fidelity. In this work, we challenge this assumption by investigating whether these metrics truly capture inter-step causal dependencies necessary for valid reasoning. We introduce three classes of inter-step causality perturbations that systematically disrupt dependencies between reasoning steps while preserving local fluency. Surprisingly, across diverse model families and reasoning benchmarks, we find that selection accuracy degrades only marginally under these disruptions. Even severe interventions, such as applying hard attention masks that directly prevent the model from attending to prior reasoning steps, do not substantially reduce selection performance. These findings provide strong evidence that current probabilistic metrics are largely insensitive to logical structure, and primarily capture surface-level fluency or in-distribution priors instead. Motivated by this gap, we propose a contrastive causality metric that explicitly isolates inter-step causal dependencies, and demonstrate that it yields more faithful output selection than existing probability-based approaches.
- Abstract(参考訳): 確率的信頼度(probabilistic confidence metrics)は、高い信頼度がより高い推論の忠実さを反映しているという仮定の下で、ベスト・オブ・N選択における推論品質のプロキシとして、ますます採用されている。
本研究では,これらの指標が,有効な推論に必要なステップ間因果関係を真に捉えているかどうかを検討することで,この仮定に挑戦する。
本研究は,局所的な流布を保ちながら,推論ステップ間の依存関係を系統的に破壊する段階間因果摂動の3つのクラスを導入する。
驚くべきことに、さまざまなモデルファミリや推論ベンチマークにおいて、選択の精度はこれらの破壊の下でわずかに低下する。
厳重な介入(例えば、モデルが事前の推論ステップへの直接参加を妨げているハード・アテンション・マスク)でさえ、選択性能を著しく低下させるものではない。
これらの結果は、現在の確率的指標が論理構造にほとんど敏感であることを示す強力な証拠となり、主に表面の流速や分布の偏りを捉えている。
このギャップによって、ステップ間の因果関係を明確に分離する対照的な因果関係計量を提案し、既存の確率ベースアプローチよりも忠実な出力選択が得られることを示す。
関連論文リスト
- The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - How Reliable are Causal Probing Interventions? [5.599792629509229]
Causal Probingは、その表現の介入がアウトプットに与える影響を調べることによって、基礎モデルを分析することを目的としている。
近年の研究では、いくつかの主要な因果探索法の理論的根拠に疑問が投げかけられている。
論文 参考訳(メタデータ) (2024-08-28T03:45:49Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Fairness and robustness in anti-causal prediction [73.693135253335]
分散シフトと公平性に対するロバストさは、機械学習モデルに必要な2つの重要なデシラタとして独立に現れている。
これら2つのデシダラタは関連しているように見えるが、実際にはその関連性はしばしば不明である。
この観点から見れば、共通フェアネス基準(分離)とロバストネスの共通概念との明確な関係を描いています。
論文 参考訳(メタデータ) (2022-09-20T02:41:17Z) - Multi-label Chaining with Imprecise Probabilities [0.0]
本稿では,古典的マルチラベル連鎖法を拡張し,不正確な確率推定を行うための2つの戦略を提案する。
このような推定に利用できる主な理由は、(1)連鎖において高い不確実性が検出された場合に慎重な予測を行うこと、(2)連鎖の初期決定におけるバイアスを回避し、より正確な予測を行うことである。
両手法の信頼性を検証したラベルの欠落に関する実験結果から,精度の高いモデルが故障した場合の予測が困難である事例に対して,本手法が関連する注意を喚起することを示す。
論文 参考訳(メタデータ) (2021-07-15T16:43:31Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Preferential Structures for Comparative Probabilistic Reasoning [2.0646127669654826]
優先的アプローチの自然な修正は確率論的アプローチと全く同じ論理体系をもたらすことを示す。
非単調論理学や信念修正の研究で用いられるのと同じ優先構造は、相対確率論的推論の研究で用いられる。
論文 参考訳(メタデータ) (2021-04-06T05:00:20Z) - Latent Causal Invariant Model [128.7508609492542]
現在の教師付き学習は、データ適合プロセス中に急激な相関を学習することができる。
因果予測を求める潜在因果不変モデル(LaCIM)を提案する。
論文 参考訳(メタデータ) (2020-11-04T10:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。