Fugu-MT 論文翻訳(概要): On Subjective Uncertainty Quantification and Calibration in Natural Language Generation

論文の概要: On Subjective Uncertainty Quantification and Calibration in Natural Language Generation

arxiv url: http://arxiv.org/abs/2406.05213v1
Date: Fri, 7 Jun 2024 18:54:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 22:45:56.354970
Title: On Subjective Uncertainty Quantification and Calibration in Natural Language Generation
Title（参考訳）: 自然言語生成における主観的不確かさの定量化と校正について
Authors: Ziyu Wang, Chris Holmes,
Abstract要約: 大規模言語モデルは多くの場合、不確実な定量化が困難になるような自由形式の応答を生成する。この研究はベイズ決定論の観点から、我々の効用は類似度尺度によって特徴づけられるという前提から、これらの課題に対処する。本稿では,質問応答と機械翻訳タスクに関する提案手法について述べる。
参考スコア（独自算出の注目度）: 2.622066970118316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Applications of large language models often involve the generation of free-form responses, in which case uncertainty quantification becomes challenging. This is due to the need to identify task-specific uncertainties (e.g., about the semantics) which appears difficult to define in general cases. This work addresses these challenges from a perspective of Bayesian decision theory, starting from the assumption that our utility is characterized by a similarity measure that compares a generated response with a hypothetical true response. We discuss how this assumption enables principled quantification of the model's subjective uncertainty and its calibration. We further derive a measure for epistemic uncertainty, based on a missing data perspective and its characterization as an excess risk. The proposed measures can be applied to black-box language models. We demonstrate the proposed methods on question answering and machine translation tasks, where they extract broadly meaningful uncertainty estimates from GPT and Gemini models and quantify their calibration.
Abstract（参考訳）: 大規模言語モデルの応用は、しばしば自由形式応答の生成を伴い、不確実な定量化が困難になる。これは、一般的な場合では定義が難しいタスク固有の不確実性(例:意味論)を特定する必要があるためである。この研究はベイズ決定論の観点からこれらの課題に対処し、我々の効用は、生成した応答と仮説的真反応を比較する類似度尺度によって特徴づけられるという仮定から始まった。本稿では,モデルの主観的不確実性とそのキャリブレーションを原理的に定量化する方法について論じる。さらに、欠落したデータ視点に基づくてんかん不確実性の尺度を導出し、その特徴を過剰なリスクとして評価する。提案手法はブラックボックス言語モデルに適用できる。提案手法は,GPTモデルとGeminiモデルから広く意味のある不確実性推定を抽出し,キャリブレーションの定量化を行う。

関連論文リスト

Token-Level Uncertainty Estimation for Large Language Model Reasoning [24.56760223952017]
大きな言語モデル(LLM)は印象的な機能を示していますが、その出力品質はさまざまなアプリケーションシナリオで相容れないままです。本稿では, LLMの自己評価と, 数学的推論における生成品質の自己向上を可能にするトークンレベルの不確実性推定フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-16T22:47:32Z)
Conformal Linguistic Calibration: Trading-off between Factuality and Specificity [41.45862052156885]
本稿では,言語プラグマティクスのレンズを通して,抑止と言語キャリブレーションを結合する統一的な枠組みを提案する。本稿では,モデル応答における不正確度を制御できる実装について述べる。提案手法は,不確実性を考慮した適応的クレーム書き換えを微調整モデルで実現し,事実性と特異性の間に制御可能なバランスを与える。
論文参考訳（メタデータ） (2025-02-26T13:01:49Z)
A statistically consistent measure of semantic uncertainty using Language Models [3.4933610074113464]
本稿では,意味的不確実性,意味的スペクトルエントロピーの新たな尺度を提案する。この尺度は、標準の事前訓練された言語モデルのみに依存する単純なアルゴリズムによって実装される。
論文参考訳（メタデータ） (2025-02-01T17:55:58Z)
DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文参考訳（メタデータ） (2024-12-12T18:52:40Z)
A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
画像セグメンテーションの進歩は、ディープラーニングベースのコンピュータビジョンの広い範囲において重要な役割を果たす。この文脈において不確かさの定量化が広く研究され、モデル無知(認識の不確実性)やデータ曖昧さ(アラート的不確実性)を表現し、不正な意思決定を防ぐことができる。この研究は、分野の進歩を左右する不確実性の基本概念と様々なタスクへの応用について議論することで、確率的セグメンテーションの包括的概要を提供する。
論文参考訳（メタデータ） (2024-11-25T13:26:09Z)
On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文参考訳（メタデータ） (2024-10-04T14:08:02Z)
Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文参考訳（メタデータ） (2024-08-20T09:42:26Z)
To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。定式化の利点を実証する一連の実験を行う。
論文参考訳（メタデータ） (2024-06-04T17:58:18Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。本稿では,LLMのための不確実性分解フレームワークについて述べる。提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文参考訳（メタデータ） (2023-11-15T05:58:35Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Uncertainty-Aware Natural Language Inference with Stochastic Weight Averaging [8.752563431501502]
本稿では,自然言語理解(NLU)タスクにおけるウェイト平均ガウス(SWAG)を用いたベイズ的不確実性モデリングを提案する。提案手法の有効性を,ヒトのアノテーションの不一致に対する予測精度と相関性の観点から示す。
論文参考訳（メタデータ） (2023-04-10T17:37:23Z)
Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation [37.37606905433334]
我々は,「意味的同値性」により,自然言語の不確実性の測定が困難であることを示す。意味的エントロピー(semantic entropy)は、共有された意味によって生成される言語的不変性を含むエントロピーである。本手法は教師なしで,単一のモデルのみを使用し,既製の言語モデルの変更は不要である。
論文参考訳（メタデータ） (2023-02-19T20:10:07Z)
Dense Uncertainty Estimation via an Ensemble-based Conditional Latent Variable Model [68.34559610536614]
我々は、アレータリック不確実性はデータの固有の特性であり、偏見のないオラクルモデルでのみ正確に推定できると論じる。そこで本研究では,軌道不確実性推定のためのオラクルモデルを近似するために,列車時の新しいサンプリングと選択戦略を提案する。以上の結果から,提案手法は精度の高い決定論的結果と確実な不確実性推定の両方を達成できることが示唆された。
論文参考訳（メタデータ） (2021-11-22T08:54:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。