論文の概要: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
- arxiv url: http://arxiv.org/abs/2406.15627v3
- Date: Fri, 10 Jan 2025 10:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:25:28.859248
- Title: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
- Title(参考訳): LM-Polygraphを用いた大規模言語モデルの不確実性定量化手法のベンチマーク
- Authors: Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev, Lyudmila Rvanova, Akim Tsvigun, Daniil Vasilev, Rui Xing, Abdelrahman Boda Sadallah, Kirill Grishchenkov, Sergey Petrakov, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, Artem Shelmanov,
- Abstract要約: 不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
- 参考スコア(独自算出の注目度): 83.90988015005934
- License:
- Abstract: The rapid proliferation of large language models (LLMs) has stimulated researchers to seek effective and efficient approaches to deal with LLM hallucinations and low-quality outputs. Uncertainty quantification (UQ) is a key element of machine learning applications in dealing with such challenges. However, research to date on UQ for LLMs has been fragmented in terms of techniques and evaluation methodologies. In this work, we address this issue by introducing a novel benchmark that implements a collection of state-of-the-art UQ baselines and offers an environment for controllable and consistent evaluation of novel UQ techniques over various text generation tasks. Our benchmark also supports the assessment of confidence normalization methods in terms of their ability to provide interpretable scores. Using our benchmark, we conduct a large-scale empirical investigation of UQ and normalization techniques across eleven tasks, identifying the most effective approaches. Code: https://github.com/IINemo/lm-polygraph Benchmark: https://huggingface.co/LM-Polygraph
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及は、LLM幻覚や低品質出力に対処するための効率的かつ効率的なアプローチを研究者に求めている。
不確実性定量化(英: Uncertainty Quantification, UQ)は、機械学習アプリケーションにおいて、このような課題に対処する上で重要な要素である。
しかし,LLMのUQに関するこれまでの研究は,技術や評価手法の面で断片化されている。
本研究では,最新のUQベースラインの集合を実装し,様々なテキスト生成タスクに対して新しいUQテクニックを制御可能かつ一貫した評価を行う環境を提供する新しいベンチマークを導入することで,この問題に対処する。
また,本ベンチマークでは,信頼度正規化手法の評価を,解釈可能なスコアを提供する能力の観点から支援している。
本ベンチマークを用いて,11タスクにわたるUQと正規化手法を大規模に検討し,最も効果的な手法を同定する。
コード:https://github.com/IINemo/lm-polygraph Benchmark: https://huggingface.co/LM-Polygraph
関連論文リスト
- Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs [35.74755307680801]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を新たに合成する方法を提案する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。
以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。
これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-23T06:40:47Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。
不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。
我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:49:24Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。