論文の概要: From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.15690v1
- Date: Thu, 22 Jan 2026 06:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.515506
- Title: From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models
- Title(参考訳): パッシブメトリックからアクティブシグナルへ:大規模言語モデルにおける不確実性定量化の役割
- Authors: Jiaxin Zhang, Wendi Cui, Zhuohang Li, Lifu Huang, Bradley Malin, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
- 参考スコア(独自算出の注目度): 77.04403907729738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) show remarkable capabilities, their unreliability remains a critical barrier to deployment in high-stakes domains. This survey charts a functional evolution in addressing this challenge: the evolution of uncertainty from a passive diagnostic metric to an active control signal guiding real-time model behavior. We demonstrate how uncertainty is leveraged as an active control signal across three frontiers: in \textbf{advanced reasoning} to optimize computation and trigger self-correction; in \textbf{autonomous agents} to govern metacognitive decisions about tool use and information seeking; and in \textbf{reinforcement learning} to mitigate reward hacking and enable self-improvement via intrinsic rewards. By grounding these advancements in emerging theoretical frameworks like Bayesian methods and Conformal Prediction, we provide a unified perspective on this transformative trend. This survey provides a comprehensive overview, critical analysis, and practical design patterns, arguing that mastering the new trend of uncertainty is essential for building the next generation of scalable, reliable, and trustworthy AI.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい能力を示しているが、信頼性の低いドメインでのデプロイメントにおいて、信頼性の欠如は依然として重要な障壁である。
この調査は、受動的診断基準からリアルタイムモデルの振る舞いを導く能動的制御信号への不確実性の進化という、この課題に対処する機能的進化をグラフ化する。
我々は,3つのフロンティアにおけるアクティブな制御信号として不確実性がいかに活用されているかを示す。計算の最適化と自己補正のトリガ,ツールの使用と情報探索に関するメタ認知的決定を統括する‘textbf{autonomous agent},報酬ハッキングを緩和し,本質的な報酬による自己改善を可能にする‘textbf{reinforcement learning’である。
ベイズ法やコンフォーマル予測のような新しい理論の枠組みにこれらの進歩を基礎づけることで、この変換的傾向について統一的な視点を提供する。
この調査は包括的な概要、批判的分析、実践的なデザインパターンを提供し、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
関連論文リスト
- Hallucination Detection and Mitigation in Large Language Models [0.0]
LLM(Large Language Models)とLRM(Large Reasoning Models)は、金融や法律のような高額な領域に変革をもたらす。
幻覚を起こそうとする傾向は、事実的に不正確な、または、サポートされていないコンテンツを発生させ、重大な信頼性のリスクを生じさせる。
本稿では,根本原因認識による継続的改善サイクル上に構築された幻覚管理のための包括的枠組みを紹介する。
論文 参考訳(メタデータ) (2026-01-14T23:19:37Z) - Explaining Machine Learning Predictive Models through Conditional Expectation Methods [0.0]
MUCEは、特徴的相互作用から予測変化を捉えるために設計された局所的説明可能性のモデルに依存しない手法である。
安定性と不確実性の2つの定量的指標は、局所的な振る舞いを要約し、モデルの信頼性を評価する。
その結果、MUCEは複雑な局所モデル挙動を効果的に捉え、安定性と不確実性指標は予測信頼性に有意義な洞察を与えることが示された。
論文 参考訳(メタデータ) (2026-01-12T08:34:36Z) - When the Coffee Feature Activates on Coffins: An Analysis of Feature Extraction and Steering for Mechanistic Interpretability [0.0]
機械的解釈可能性に関する人類学の最近の研究は、大規模言語モデルを理解し制御することを主張している。
我々は、Llama 3.1のオープンソースSAEで主要な結果を複製することで、これらの主張の最初のストレステストを行う。
機能ステアリングは, 層選択, ステアリングサイズ, コンテキストに敏感で, かなり脆弱であることがわかった。
論文 参考訳(メタデータ) (2026-01-06T14:29:51Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.50500608175905]
畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:30Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。