論文の概要: Reasoning's Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection
- arxiv url: http://arxiv.org/abs/2510.21049v1
- Date: Thu, 23 Oct 2025 23:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.339913
- Title: Reasoning's Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection
- Title(参考訳): Reasoning's Razor: Reasoningは精度を向上するが、安全性と幻覚検出において重要な操作ポイントでリコールできる
- Authors: Atoosa Chegini, Hamid Kazemi, Garrett Souza, Maria Safi, Yang Song, Samy Bengio, Sinead Williamson, Mehrdad Farajtabar,
- Abstract要約: 推論は大規模言語モデル(LLM)の中心パラダイムとなっている。
厳密な低偽陽性率体制下での分類タスクの推論に関する最初の体系的研究について述べる。
思考(推論強化)生成は全体的な精度を向上するが、実用に不可欠な低FPRしきい値では性能が低下する。
- 参考スコア(独自算出の注目度): 21.190105743961798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning has become a central paradigm for large language models (LLMs), consistently boosting accuracy across diverse benchmarks. Yet its suitability for precision-sensitive tasks remains unclear. We present the first systematic study of reasoning for classification tasks under strict low false positive rate (FPR) regimes. Our analysis covers two tasks--safety detection and hallucination detection--evaluated in both fine-tuned and zero-shot settings, using standard LLMs and Large Reasoning Models (LRMs). Our results reveal a clear trade-off: Think On (reasoning-augmented) generation improves overall accuracy, but underperforms at the low-FPR thresholds essential for practical use. In contrast, Think Off (no reasoning during inference) dominates in these precision-sensitive regimes, with Think On surpassing only when higher FPRs are acceptable. In addition, we find token-based scoring substantially outperforms self-verbalized confidence for precision-sensitive deployments. Finally, a simple ensemble of the two modes recovers the strengths of each. Taken together, our findings position reasoning as a double-edged tool: beneficial for average accuracy, but often ill-suited for applications requiring strict precision.
- Abstract(参考訳): 推論は大規模言語モデル(LLM)の中心パラダイムとなり、様々なベンチマークで常に正確性を高めている。
しかし、精度に敏感なタスクに対する適合性はまだ不明である。
本稿では,厳格な低偽陽性率(FPR)体制下での分類タスクの推論に関する最初の体系的研究について述べる。
我々の分析では、標準LLMとLarge Reasoning Models(LRM)を用いて、微調整とゼロショット設定の両方で安全検出と幻覚検出の2つのタスクについて検討した。
思考(推論強化)生成は全体的な精度を向上するが、実用に不可欠な低FPRしきい値では性能が低下する。
対照的に、Think Off(推論中の推論なし)はこれらの精度に敏感な体制において支配的であり、Think Onはより高いFPRが受け入れられる場合にのみ上回っている。
さらに,トークンベースのスコアリングは,正確性に敏感なデプロイメントにおいて,自己弁別信頼度を大幅に上回ることがわかった。
最後に、2つのモードの単純なアンサンブルはそれぞれの強度を回復させる。
平均的精度には有益だが、厳密な精度を必要とするアプリケーションには適さないことが多い。
関連論文リスト
- Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - Judging with Confidence: Calibrating Autoraters to Preference Distributions [56.17041629492863]
信頼性の高いオートラッターは、対象の個体群によって定義される嗜好の完全な分布をモデル化することを学ぶ必要がある、と我々は主張する。
異なるデータ条件に合わせた2つの学習方法を提案する。
この結果から, 分布マッチング目的の微調整オートレーダは, 目的の好み分布に整合した有言確率予測を導出することがわかった。
論文 参考訳(メタデータ) (2025-09-30T20:36:41Z) - Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Are We Really Achieving Better Beyond-Accuracy Performance in Next Basket Recommendation? [57.91114305844153]
次のバスケットレコメンデーション(NBR)は、ますます注目を集めている特別なタイプのシーケンシャルレコメンデーションである。
NBRに関する最近の研究は、繰り返し項目を推奨することと項目を探索することの間に大きなパフォーマンス差が見つかった。
本稿では,繰り返しアイテムを扱い,個別にアイテムを探索する2段階反復探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T09:59:35Z) - Worst Case Matters for Few-Shot Recognition [27.023352955311502]
少ないショット認識は、カテゴリ毎に非常に少ない(例:1または5)画像を持つ認識モデルを学ぶ。
現在の数発の学習方法は、多くのエピソードの平均精度を改善することに焦点を当てている。
現実のアプリケーションでは、多くではなく1回だけ試すことがよくあるので、最悪のケースの精度を最大化することは、平均的な精度を最大化することよりも重要である、と私たちは主張する。
論文 参考訳(メタデータ) (2022-03-13T05:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。