論文の概要: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
- arxiv url: http://arxiv.org/abs/2406.15627v2
- Date: Tue, 29 Oct 2024 20:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:49.529879
- Title: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
- Title(参考訳): LM-Polygraphを用いた大規模言語モデルの不確実性定量化手法のベンチマーク
- Authors: Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev, Lyudmila Rvanova, Akim Tsvigun, Daniil Vasilev, Rui Xing, Abdelrahman Boda Sadallah, Kirill Grishchenkov, Sergey Petrakov, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, Artem Shelmanov,
- Abstract要約: 不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
- 参考スコア(独自算出の注目度): 83.90988015005934
- License:
- Abstract: Uncertainty quantification (UQ) is a critical component of machine learning (ML) applications. The rapid proliferation of large language models (LLMs) has stimulated researchers to seek efficient and effective approaches to UQ for text generation. As with other ML models, LLMs are prone to making incorrect predictions, in the form of ``hallucinations'' whereby claims are fabricated or low-quality outputs are generated for a given input. UQ is a key element in dealing with these challenges. However, research to date on UQ methods for LLMs has been fragmented, in terms of the literature on UQ techniques and evaluation methods. In this work, we tackle this issue by introducing a novel benchmark that implements a collection of state-of-the-art UQ baselines, and provides an environment for controllable and consistent evaluation of novel UQ techniques over various text generation tasks. Our benchmark also supports the assessment of confidence normalization methods in terms of their ability to provide interpretable scores. Using our benchmark, we conduct a large-scale empirical investigation of UQ and normalization techniques across nine tasks, and identify the most promising approaches. Code: https://github.com/IINemo/lm-polygraph
- Abstract(参考訳): 不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
大規模言語モデル(LLM)の急速な普及により、研究者はテキスト生成のためのUQに対する効率的かつ効果的なアプローチを求めるようになった。
他のMLモデルと同様に、LLMは誤った予測を行う傾向があり、例えば '`hallucinations'' という形式でクレームが作成され、与えられた入力に対して低品質の出力が生成される。
UQはこれらの課題に対処する上で重要な要素です。
しかし,従来のLLMにおけるUQ手法の研究は,UQ手法と評価手法に関する文献から断片化されている。
本研究では,最新のUQベースラインの集合を実装した新しいベンチマークを導入し,様々なテキスト生成タスクに対して新しいUQテクニックを制御可能かつ一貫した評価を行う環境を提供することにより,この問題に対処する。
また,本ベンチマークでは,信頼度正規化手法の評価を,解釈可能なスコアを提供する能力の観点から支援している。
このベンチマークを用いて,9つのタスクにわたるUQと正規化手法を大規模に検証し,最も有望なアプローチを特定する。
コード:https://github.com/IINemo/lm-polygraph
関連論文リスト
- Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Uncertainty-aware Evaluation of Time-Series Classification for Online
Handwriting Recognition with Domain Shift [2.7015517125109247]
本稿では,オンライン手書き文字認識のためのモデルに焦点を当てる。
データは、文字を書くことを目標とするセンサー付きペンから観測される。
モデルをよりよく理解するために、UQ技術はデータのアウト・オブ・ディストリビューションを検出することができる。
論文 参考訳(メタデータ) (2022-06-17T09:05:01Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - A Review of Uncertainty Quantification in Deep Learning: Techniques,
Applications and Challenges [76.20963684020145]
不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。
ビザレ近似とアンサンブル学習技術は、文学において最も広く使われている2つのUQ手法である。
本研究は, 深層学習におけるUQ手法の最近の進歩を概観し, 強化学習におけるこれらの手法の適用について検討する。
論文 参考訳(メタデータ) (2020-11-12T06:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。