論文の概要: Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness
- arxiv url: http://arxiv.org/abs/2603.06612v1
- Date: Fri, 20 Feb 2026 03:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.435429
- Title: Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness
- Title(参考訳): LLMの真面目さで群衆の知恵が損なわれるのはなぜか?
- Authors: Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo,
- Abstract要約: Pass@kや他の推論計算のスケーリング方法は、外部検証器を持つドメインにおける言語モデルのパフォーマンスを向上させることができる。
5つのベンチマークとモデルで、驚くべきことに、それは不可能です。
不確実性の下では、モデルは真であることを識別するよりも、モデルアンサンブル内で他のモデルが何を言うかを予測するのが優れていることが分かりました。
- 参考スコア(独自算出の注目度): 30.401369966789915
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pass@k and other methods of scaling inference compute can improve language model performance in domains with external verifiers, including mathematics and code, where incorrect candidates can be filtered reliably. This raises a natural question: can we similarly scale compute to elicit gains in truthfulness for domains without convenient verification? We show that across five benchmarks and models, surprisingly, it cannot. Even at 25x the inference cost of naive sampling, polling-style aggregation yields no consistent accuracy gains over single-sample baselines and often amplifies shared misconceptions. We find that under uncertainty, models are better at predicting what other models will say within model ensembles than at identifying what is true, revealing a separation between social prediction and truth verification. Across models and benchmarks, aggregation fails to provide a robust truth signal because language model errors are strongly correlated. The source of correlation goes beyond any individual benchmark: we show that even when conditioned on out of distribution random strings and asked to produce pseudo-random outputs, different models produce correlated outputs. Confidence-based weighting provides no benefit because self-reported confidence fails to reliably distinguish correct from incorrect answers. These results delineate a boundary for inference-time scaling: in verified domains, additional samples provide more candidates for a verifier to filter; in unverified domains, additional samples merely reinforce shared misconceptions.
- Abstract(参考訳): Pass@kや他の推論計算のスケーリング方法は、不正確な候補を確実にフィルタリングできる数学やコードを含む外部検証器を持つ領域における言語モデルのパフォーマンスを向上させることができる。
同様に計算をスケールして、便利な検証なしに、ドメインの真偽の利得を導き出せるか?
5つのベンチマークとモデルで、驚くべきことに、それは不可能です。
単純サンプリングの推論コストが25倍であっても、ポーリングスタイルのアグリゲーションは単一サンプルベースラインよりも一貫した精度を得られず、しばしば共有誤解を増幅する。
不確実性の下では、モデルは、モデルアンサンブル内で他のモデルが何を言うかを予測するのに、何が真実であるかを識別し、社会的予測と真実の検証の分離を明らかにするよりも、より優れていることが分かっています。
モデルとベンチマーク全体において、アグリゲーションは言語モデルのエラーが強く相関しているため、堅牢な真理信号を提供することができない。
相関の源はどのベンチマークにも及ばず、分布外乱数列を条件付けして擬似ランダム出力を要求された場合でも、異なるモデルが相関出力を生成することを示す。
自信に基づく重み付けは、自己報告された自信が正しい答えと間違った答えを確実に区別できないため、利益を与えない。
検証済みのドメインでは、追加のサンプルが検証対象の候補を増やし、検証されていないドメインでは、追加のサンプルは単に共有誤解を補強するだけである。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers [13.823743787003787]
近年の研究では、推論スケーリングにより、より弱い言語モデルがより強力なモデルの精度に適合または超えることを期待している。
より弱いモデルの推論スケーリングの量は、十分に強いモデルの単一サンプル精度に匹敵することができないことを示す。
また、精度以上の偽陽性には、コーディングスタイルの慣行への順守の欠如など、他の望ましくない性質があることも示している。
論文 参考訳(メタデータ) (2024-11-26T15:13:06Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Birds of a Feather Trust Together: Knowing When to Trust a Classifier
via Adaptive Neighborhood Aggregation [30.34223543030105]
我々は、NeighborAggがアダプティブ近隣アグリゲーションを介して2つの重要な情報を利用する方法を示す。
また, 誤り検出の密接な関連課題へのアプローチを拡張し, 偽陰性境界に対する理論的カバレッジを保証する。
論文 参考訳(メタデータ) (2022-11-29T18:43:15Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。