論文の概要: Multi-group Uncertainty Quantification for Long-form Text Generation
- arxiv url: http://arxiv.org/abs/2407.21057v1
- Date: Thu, 25 Jul 2024 02:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:45:44.196329
- Title: Multi-group Uncertainty Quantification for Long-form Text Generation
- Title(参考訳): 長文テキスト生成のための多群不確実性定量化
- Authors: Terrance Liu, Zhiwei Steven Wu,
- Abstract要約: 長文の自然言語生成における事実的正当性の不確実性定量化の問題について検討する。
このような不確実性を保証するために,マルチキャリブレーションとマルチバリッドコンフォメーション予測を起動する。
- 参考スコア(独自算出の注目度): 29.65035492536852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models are rapidly moving towards consumer-facing applications, they are often still prone to factual errors and hallucinations. In order to reduce the potential harms that may come from these errors, it is important for users to know to what extent they can trust an LLM when it makes a factual claim. To this end, we study the problem of uncertainty quantification of factual correctness in long-form natural language generation. Given some output from a large language model, we study both uncertainty at the level of individual claims contained within the output (via calibration) and uncertainty across the entire output itself (via conformal prediction). Moreover, we invoke multicalibration and multivalid conformal prediction to ensure that such uncertainty guarantees are valid both marginally and across distinct groups of prompts. Using the task of biography generation, we demonstrate empirically that having access to and making use of additional group attributes for each prompt improves both overall and group-wise performance. As the problems of calibration, conformal prediction, and their multi-group counterparts have not been extensively explored previously in the context of long-form text generation, we consider these empirical results to form a benchmark for this setting.
- Abstract(参考訳): 大きな言語モデルは急速にコンシューマ向けアプリケーションへと移行していますが、実際にはエラーや幻覚の傾向があります。
これらのエラーから生じる潜在的な害を軽減するためには、ユーザが実際に主張をしたとき、LLMをどの程度信頼できるかを知ることが重要である。
この目的のために、長文の自然言語生成における事実正当性の不確実性定量化の問題について検討する。
大規模言語モデルからの出力が与えられた場合、(キャリブレーションによる)出力に含まれる個々のクレームのレベルにおける不確実性と(共形予測による)出力全体に対する不確実性の両方について検討する。
さらに,マルチキャリブレーションとマルチバリッド整合予測を行い,このような不確実性保証が,異なるプロンプト群にまたがって有効であることを保証する。
バイオグラフィー生成のタスクを用いて、各プロンプトにグループ属性を追加して利用することで、全体的なパフォーマンスとグループワイドのパフォーマンスが向上することが実証的に実証された。
校正, 共形予測, および多群予測の問題は, 長文生成の文脈ではこれまで広く検討されていないため, これらの実験結果は, この設定のベンチマークとなると考えられる。
関連論文リスト
- Investigating Factuality in Long-Form Text Generation: The Roles of Self-Known and Self-Unknown [55.91887554462312]
様々な大言語モデル(LLM)における長文テキスト生成の事実性について検討する。
分析の結果, 文末文では事実性スコアが低下傾向にあり, 支持請求件数が増加傾向にあることが明らかとなった。
高い自己知識スコアと改善された事実性との間には相関関係がみられ,高い自己未知スコアは低い事実性と関連している。
論文 参考訳(メタデータ) (2024-11-24T22:06:26Z) - Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - Finetuning Language Models to Emit Linguistic Expressions of Uncertainty [5.591074369497796]
大規模言語モデル(LLM)は情報検索や意思決定のタスクにますます採用されている。
LLMは現実世界の事実と矛盾する情報を生成する傾向があり、その説得的なスタイルはこれらの不正確さを自信と説得力に見せかける。
本研究では,不確実性の言語表現を生成するモデルを開発する手法として,不確実性拡張予測の教師付き微調整について検討する。
論文 参考訳(メタデータ) (2024-09-18T17:52:53Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Linguistic Calibration of Long-Form Generations [57.836339732160916]
言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。
この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、評価された信頼度のある長文を生成できない。
LMは、その世代がユーザがキャリブレーションされた確率予測を行えるようにすれば、言語的にキャリブレーションされる。
論文 参考訳(メタデータ) (2024-03-30T20:47:55Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。