論文の概要: LUQ: Long-text Uncertainty Quantification for LLMs
- arxiv url: http://arxiv.org/abs/2403.20279v1
- Date: Fri, 29 Mar 2024 16:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:05:12.206988
- Title: LUQ: Long-text Uncertainty Quantification for LLMs
- Title(参考訳): LUQ:LLMの長期不確実性定量化
- Authors: Caiqi Zhang, Fangyu Liu, Marco Basaldella, Nigel Collier,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な能力を示した。
有効性にもかかわらず、これらのモデルは非現実的なコンテンツを生成する傾向にある。
不確実性定量化(UQ)は、モデルが生成したコンテンツに対する信頼度を高める上で重要な要素である。
- 参考スコア(独自算出の注目度): 29.987010627250527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capability in a variety of NLP tasks. Despite their effectiveness, these models are prone to generate nonfactual content. Uncertainty Quantification (UQ) is pivotal in enhancing our understanding of a model's confidence in its generated content, thereby aiding in the mitigation of nonfactual outputs. Existing research on UQ predominantly targets short text generation, typically yielding brief, word-limited responses. However, real-world applications frequently necessitate much longer responses. Our study first highlights the limitations of current UQ methods in handling long text generation. We then introduce \textsc{Luq}, a novel sampling-based UQ approach specifically designed for long text. Our findings reveal that \textsc{Luq} outperforms existing baseline methods in correlating with the model's factuality scores (negative coefficient of -0.85 observed for Gemini Pro). With \textsc{Luq} as the tool for UQ, we investigate behavior patterns of several popular LLMs' response confidence spectrum and how that interplays with the response' factuality. We identify that LLMs lack confidence in generating long text for rare facts and a factually strong model (i.e. GPT-4) tends to reject questions it is not sure about. To further improve the factual accuracy of LLM responses, we propose a method called \textsc{Luq-Ensemble} that ensembles responses from multiple models and selects the response with the least uncertainty. The ensembling method greatly improves the response factuality upon the best standalone LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な能力を示した。
有効性にもかかわらず、これらのモデルは非現実的なコンテンツを生成する傾向にある。
不確実性定量化(Uncertainty Quantification, UQ)は、モデルが生成したコンテンツに対する信頼度を高めるために重要な要素であり、非実効出力の緩和を支援する。
UQに関する既存の研究は、主に短いテキスト生成をターゲットとしており、通常は短い、単語限定の応答をもたらす。
しかし、現実世界のアプリケーションは、より長いレスポンスを必要とすることが多い。
本研究はまず,長文生成処理における現在のUQ手法の限界について述べる。
次に、長いテキストに特化して設計された新しいサンプリングベースのUQアプローチである‘textsc{Luq} を紹介する。
以上の結果から,<textsc{Luq} はモデル事実性スコア(Gemini Pro で観測された-0.85 の負係数)と相関して,既存のベースライン法よりも優れていることがわかった。
UQ のツールとして \textsc{Luq} を用いると、いくつかの人気のある LLM の応答信頼スペクトルの行動パターンと、それが応答の事実とどのように相互作用するかを考察する。
LLMは稀な事実に対する長文生成の信頼性に欠けており、事実的に強いモデル(GPT-4)は、不確実な質問を拒否する傾向にある。
LLM応答の現実的精度をさらに向上するため,複数のモデルからの応答をアンサンブルし,不確実性を最小限に選択する「textsc{Luq-Ensemble}」という手法を提案する。
アンサンブル法は、最高のスタンドアロンLCMに対する応答事実性を大幅に改善する。
関連論文リスト
- Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。