論文の概要: Do LLMs Signal When They're Right? Evidence from Neuron Agreement
- arxiv url: http://arxiv.org/abs/2510.26277v1
- Date: Thu, 30 Oct 2025 08:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.72866
- Title: Do LLMs Signal When They're Right? Evidence from Neuron Agreement
- Title(参考訳): LLMは正しいときに信号を送るか? ニューロンの合意から
- Authors: Kang Chen, Yaoning Wang, Kai Xiong, Zhuoka Feng, Wenhe Sun, Haotian Chen, Yixin Cao,
- Abstract要約: NAD(Neuron Agreement Decoding)は、アクティベーション間隔とクロスサンプルニューロンアグリーメントを用いて候補を選択する、教師なしのベスト・オブ・N法である。
未生産の軌道を早期に刈り取ることにより、NADは生成品質の低下を最小限に抑えてトークンの使用量を99%削減する。
- 参考スコア(独自算出の注目度): 24.7981774961751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) commonly boost reasoning via sample-evaluate-ensemble decoders, achieving label free gains without ground truth. However, prevailing strategies score candidates using only external outputs such as token probabilities, entropies, or self evaluations, and these signals can be poorly calibrated after post training. We instead analyze internal behavior based on neuron activations and uncover three findings: (1) external signals are low dimensional projections of richer internal dynamics; (2) correct responses activate substantially fewer unique neurons than incorrect ones throughout generation; and (3) activations from correct responses exhibit stronger cross sample agreement, whereas incorrect ones diverge. Motivated by these observations, we propose Neuron Agreement Decoding (NAD), an unsupervised best-of-N method that selects candidates using activation sparsity and cross sample neuron agreement, operating solely on internal signals and without requiring comparable textual outputs. NAD enables early correctness prediction within the first 32 generated tokens and supports aggressive early stopping. Across math and science benchmarks with verifiable answers, NAD matches majority voting; on open ended coding benchmarks where majority voting is inapplicable, NAD consistently outperforms Avg@64. By pruning unpromising trajectories early, NAD reduces token usage by 99% with minimal loss in generation quality, showing that internal signals provide reliable, scalable, and efficient guidance for label free ensemble decoding.
- Abstract(参考訳): 大規模言語モデル(LLM)は一般にサンプル値アンサンブルデコーダによる推論を促進し、基礎的な真実なしにラベルフリーゲインを達成する。
しかし、一般的な戦略では、トークン確率、エントロピー、自己評価などの外部出力のみを用いて候補をスコアし、これらの信号はポストトレーニング後に不適切な校正を行うことができる。
1)外部信号はよりリッチな内部力学の低次元射影であり,(2)正しい応答は生成過程を通じて不正確なニューロンよりも著しく少ないユニークなニューロンを活性化し,(3)正しい応答からの活性化はより強いクロスサンプル一致を示す。
これらの観測により,活性化空間とクロスサンプルニューロン契約を用いて候補を選別し,内部信号のみと同等のテキスト出力を必要としない,教師なしのベスト・オブ・N法である神経コンセンサス・デコーディング(NAD)を提案する。
NADは、最初の32生成トークンで早期の正当性予測を可能にし、攻撃的な早期停止をサポートする。
数学と科学のベンチマーク全体で、NADは多数決に一致し、多数決が適用できないオープンエンドのコーディングベンチマークでは、NADは一貫してAvg@64を上回っている。
NADは未証明の軌道を早期に刈り取ることにより、生成品質の損失を最小限に抑えてトークン使用量を99%削減し、内部信号がラベルフリーアンサンブル復号のための信頼性、スケーラブル、効率的なガイダンスを提供することを示した。
関連論文リスト
- Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Neuron Activation Coverage: Rethinking Out-of-distribution Detection and
Generalization [34.88219742339634]
InDデータに基づくニューロン行動の簡易な測定法として,テクスチトニューロンアクティベーションカバレッジ(NAC)を導入する。
InDとOODの入力はニューロンの挙動に基づいて大きく分離することができ、OOD検出問題を著しく緩和できることを示す。
論文 参考訳(メタデータ) (2023-06-05T13:50:56Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - Detection of out-of-distribution samples using binary neuron activation
patterns [0.26249027950824505]
未確認入力を新しいものとして識別する能力は、自動運転車、無人航空機、ロボットなどの安全上重要な応用に不可欠である。
OODサンプルを検出するための既存のアプローチでは、DNNをブラックボックスとして扱い、出力予測の信頼性スコアを評価する。
本稿では,新しいOOD検出法を提案する。本手法は,ReLUアーキテクチャにおけるニューロン活性化パターン(NAP)の理論的解析に動機付けられている。
論文 参考訳(メタデータ) (2022-12-29T11:42:46Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。