論文の概要: LUQ: Long-text Uncertainty Quantification for LLMs
- arxiv url: http://arxiv.org/abs/2403.20279v1
- Date: Fri, 29 Mar 2024 16:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:05:12.206988
- Title: LUQ: Long-text Uncertainty Quantification for LLMs
- Title(参考訳): LUQ:LLMの長期不確実性定量化
- Authors: Caiqi Zhang, Fangyu Liu, Marco Basaldella, Nigel Collier,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な能力を示した。
有効性にもかかわらず、これらのモデルは非現実的なコンテンツを生成する傾向にある。
不確実性定量化(UQ)は、モデルが生成したコンテンツに対する信頼度を高める上で重要な要素である。
- 参考スコア(独自算出の注目度): 29.987010627250527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capability in a variety of NLP tasks. Despite their effectiveness, these models are prone to generate nonfactual content. Uncertainty Quantification (UQ) is pivotal in enhancing our understanding of a model's confidence in its generated content, thereby aiding in the mitigation of nonfactual outputs. Existing research on UQ predominantly targets short text generation, typically yielding brief, word-limited responses. However, real-world applications frequently necessitate much longer responses. Our study first highlights the limitations of current UQ methods in handling long text generation. We then introduce \textsc{Luq}, a novel sampling-based UQ approach specifically designed for long text. Our findings reveal that \textsc{Luq} outperforms existing baseline methods in correlating with the model's factuality scores (negative coefficient of -0.85 observed for Gemini Pro). With \textsc{Luq} as the tool for UQ, we investigate behavior patterns of several popular LLMs' response confidence spectrum and how that interplays with the response' factuality. We identify that LLMs lack confidence in generating long text for rare facts and a factually strong model (i.e. GPT-4) tends to reject questions it is not sure about. To further improve the factual accuracy of LLM responses, we propose a method called \textsc{Luq-Ensemble} that ensembles responses from multiple models and selects the response with the least uncertainty. The ensembling method greatly improves the response factuality upon the best standalone LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な能力を示した。
有効性にもかかわらず、これらのモデルは非現実的なコンテンツを生成する傾向にある。
不確実性定量化(Uncertainty Quantification, UQ)は、モデルが生成したコンテンツに対する信頼度を高めるために重要な要素であり、非実効出力の緩和を支援する。
UQに関する既存の研究は、主に短いテキスト生成をターゲットとしており、通常は短い、単語限定の応答をもたらす。
しかし、現実世界のアプリケーションは、より長いレスポンスを必要とすることが多い。
本研究はまず,長文生成処理における現在のUQ手法の限界について述べる。
次に、長いテキストに特化して設計された新しいサンプリングベースのUQアプローチである‘textsc{Luq} を紹介する。
以上の結果から,<textsc{Luq} はモデル事実性スコア(Gemini Pro で観測された-0.85 の負係数)と相関して,既存のベースライン法よりも優れていることがわかった。
UQ のツールとして \textsc{Luq} を用いると、いくつかの人気のある LLM の応答信頼スペクトルの行動パターンと、それが応答の事実とどのように相互作用するかを考察する。
LLMは稀な事実に対する長文生成の信頼性に欠けており、事実的に強いモデル(GPT-4)は、不確実な質問を拒否する傾向にある。
LLM応答の現実的精度をさらに向上するため,複数のモデルからの応答をアンサンブルし,不確実性を最小限に選択する「textsc{Luq-Ensemble}」という手法を提案する。
アンサンブル法は、最高のスタンドアロンLCMに対する応答事実性を大幅に改善する。
関連論文リスト
- Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。