論文の概要: The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations
- arxiv url: http://arxiv.org/abs/2509.12886v1
- Date: Tue, 16 Sep 2025 09:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.009811
- Title: The LLM Already Knows: Estimating LLM-Perceived Question Difficulty via Hidden Representations
- Title(参考訳): LLMはすでに知っている:隠れ表現によるLLMが知覚する質問の難しさを推定する
- Authors: Yubo Zhu, Dongrui Liu, Zecheng Lin, Wei Tong, Sheng Zhong, Jing Shao,
- Abstract要約: 大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。
本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
- 参考スコア(独自算出の注目度): 33.65540900920885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the difficulty of input questions as perceived by large language models (LLMs) is essential for accurate performance evaluation and adaptive inference. Existing methods typically rely on repeated response sampling, auxiliary models, or fine-tuning the target model itself, which may incur substantial computational costs or compromise generality. In this paper, we propose a novel approach for difficulty estimation that leverages only the hidden representations produced by the target LLM. We model the token-level generation process as a Markov chain and define a value function to estimate the expected output quality given any hidden state. This allows for efficient and accurate difficulty estimation based solely on the initial hidden state, without generating any output tokens. Extensive experiments across both textual and multimodal tasks demonstrate that our method consistently outperforms existing baselines in difficulty estimation. Moreover, we apply our difficulty estimates to guide adaptive reasoning strategies, including Self-Consistency, Best-of-N, and Self-Refine, achieving higher inference efficiency with fewer generated tokens.
- Abstract(参考訳): 大規模言語モデル(LLM)によって知覚される入力質問の難しさを推定することは、正確な性能評価と適応推論に不可欠である。
既存の手法は、通常、繰り返しの応答サンプリング、補助モデル、あるいはターゲットモデル自体の微調整に頼っている。
本稿では,LLMが生成する隠れ表現のみを利用する難易度推定手法を提案する。
トークンレベルの生成プロセスをマルコフ連鎖としてモデル化し,隠れ状態が与えられた場合の期待出力品質を推定する値関数を定義する。
これにより、出力トークンを生成することなく、初期隠れ状態のみに基づいて効率よく正確な難易度推定が可能になる。
テキストタスクとマルチモーダルタスクの両方にわたる広範囲な実験により,本手法が既存のベースラインを常に上回っていることを示す。
さらに,自己整合性,Best-of-N,Self-Refineなどの適応推論戦略の導出に難易度推定を適用し,少ないトークンで高い推論効率を実現する。
関連論文リスト
- Efficient Uncertainty in LLMs through Evidential Knowledge Distillation [3.864321514889099]
性能を犠牲にすることなく,LLMの効率的かつ効果的な不確実性評価を可能にする新しい手法を提案する。
我々は、不確実性を考慮した教師モデルを、同じアーキテクチャを共有するコンパクトな学生モデルに蒸留するが、Lo-Rank Adaptation (LoRA)を用いて微調整する。
分類データセットに関する実証的な評価は、そのような学生が同等または優れた予測的・不確実性定量化性能を達成できることを証明している。
論文 参考訳(メタデータ) (2025-07-24T12:46:40Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
大きな言語モデル(LLM)は印象的な能力を示しているが、その出力品質は相容れないままである。
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
我々の手法は、既存の不確実性推定方法より一貫して優れている。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Rethinking Uncertainty Estimation in Natural Language Generation [6.3398383724486544]
大規模言語モデル(LLM)は、現実のアプリケーションにますます採用されている。
不確実性推定法は複数の出力シーケンスを生成し解析し、LCMの不確実性を決定する。
単一出力シーケンスのみを用いて得られる利点を持つG-NLLを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:51:06Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。