論文の概要: Task-Awareness Improves LLM Generations and Uncertainty
- arxiv url: http://arxiv.org/abs/2601.21500v1
- Date: Thu, 29 Jan 2026 10:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.728184
- Title: Task-Awareness Improves LLM Generations and Uncertainty
- Title(参考訳): タスク認識はLLM生成と不確かさを改善する
- Authors: Tim Tomov, Dominik Fuchsgruber, Stephan Günnemann,
- Abstract要約: ベイズ最適応答は、ビームサーチのような標準的な復号法より一貫して優れている。
我々の決定論的なフレームワークは、潜在応答構造を持つあらゆる問題に適用できる。
- 参考スコア(独自算出の注目度): 48.857040212979484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many applications of LLMs, natural language responses often have an underlying structure such as representing discrete labels, numerical values, or graphs. Yet, existing decoding and uncertainty estimation methods operate only in language space and largely disregard structural information. We address this by modeling LLM outputs directly in a task-dependent latent structure. By equipping this structure with a dissimilarity measure, we can compute Bayes-optimal responses. These are not selected from sampled generations but are newly synthesized by combining individual responses in the latent space. Across different tasks, Bayes-optimal responses consistently outperform standard decoding methods like beam search. Moreover, quantifying uncertainty via the induced Bayesian risk captures variations in terms of the latent structure and improves alignment with output quality and correctness. Our decision-theoretic framework is applicable to any problem that admits a latent response structure and enables reliable task-aware LLM predictions.
- Abstract(参考訳): LLMの多くの応用において、自然言語応答は離散ラベル、数値、グラフなどの基盤構造を持つことが多い。
しかし、既存の復号法と不確実性推定法は言語空間でのみ動作し、構造情報のほとんどを無視している。
LLMの出力をタスク依存の潜在構造で直接モデル化することで、この問題に対処する。
この構造に相似性測度を持たせることで、ベイズ最適応答を計算することができる。
これらはサンプリングされた世代から選択されるのではなく、潜伏空間における個々の反応を組み合わせて新たに合成される。
様々なタスクにおいて、ベイズ最適応答はビームサーチのような標準的な復号法より一貫して優れている。
さらに、誘導ベイズリスクによる不確実性の定量化は、潜伏構造の観点から変動を捉え、出力品質と正しさとの整合性を改善する。
我々の決定論的フレームワークは、潜在応答構造を許容し、信頼性の高いタスク対応LLM予測を可能にするあらゆる問題に適用できる。
関連論文リスト
- FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。
まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。
第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文 参考訳(メタデータ) (2026-01-16T14:08:51Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Automatic Posology Structuration : What role for LLMs? [1.0445560141983634]
自由文ポソジを構造化形式に変換するために,Large Language Models (LLM) の利用について検討する。
提案手法は,性能向上に寄与するが,ベースラインの精度は微調整LLMのみである。
そこで我々は,NERL から LLM へ低信頼度ケースをルーティングし,信頼度スコアに基づいて出力を選択するハイブリッドパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T11:25:21Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。
真性最適化のための学習可能なインターベンション手法であるLITOを提案する。
複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文 参考訳(メタデータ) (2024-05-01T03:50:09Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。