Fugu-MT 論文翻訳(概要): Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

論文の概要: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

arxiv url: http://arxiv.org/abs/2406.15627v1
Date: Fri, 21 Jun 2024 20:06:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 21:24:18.075531
Title: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
Title（参考訳）: LM-Polygraphを用いた大規模言語モデルの不確実性定量化手法のベンチマーク
Authors: Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev, Akim Tsvigun, Daniil Vasilev, Rui Xing, Abdelrahman Boda Sadallah, Lyudmila Rvanova, Sergey Petrakov, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, Artem Shelmanov,
Abstract要約: 不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
参考スコア（独自算出の注目度）: 85.51252685938564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Uncertainty quantification (UQ) is becoming increasingly recognized as a critical component of applications that rely on machine learning (ML). The rapid proliferation of large language models (LLMs) has stimulated researchers to seek efficient and effective approaches to UQ in text generation tasks, as in addition to their emerging capabilities, these models have introduced new challenges for building safe applications. As with other ML models, LLMs are prone to make incorrect predictions, ``hallucinate'' by fabricating claims, or simply generate low-quality output for a given input. UQ is a key element in dealing with these challenges. However research to date on UQ methods for LLMs has been fragmented, with disparate evaluation methods. In this work, we tackle this issue by introducing a novel benchmark that implements a collection of state-of-the-art UQ baselines, and provides an environment for controllable and consistent evaluation of novel techniques by researchers in various text generation tasks. Our benchmark also supports the assessment of confidence normalization methods in terms of their ability to provide interpretable scores. Using our benchmark, we conduct a large-scale empirical investigation of UQ and normalization techniques across nine tasks and shed light on the most promising approaches.
Abstract（参考訳）: 不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。大規模言語モデル(LLM)の急速な普及は、テキスト生成タスクにおけるUQに対する効率的かつ効果的なアプローチを求める研究者を刺激している。他のMLモデルと同様に、LLMは不正確な予測をしがちで、''hallucinate' はクレームを作成したり、与えられた入力に対して単に低品質の出力を生成する。 UQはこれらの課題に対処する上で重要な要素です。しかし,LLMのUQ手法に関するこれまでの研究は,異なる評価手法を用いて断片化されている。本研究では,最新のUQベースラインの集合を実装した新しいベンチマークを導入し,テキスト生成タスクにおける研究者による新しいテクニックの制御と一貫した評価を行う環境を提供することにより,この問題に対処する。また,本ベンチマークでは,信頼度正規化手法の評価を,解釈可能なスコアを提供する能力の観点から支援している。ベンチマークを用いて、9つのタスクにわたるUQと正規化技術に関する大規模な実証調査を行い、最も有望なアプローチに光を当てた。

関連論文リスト

Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文参考訳（メタデータ） (2025-07-16T14:47:41Z)
CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。 LLMの既存の不確実性定量化(UQ)法は、主に応答性よりも即時的であり、高い計算コストを発生させる。応答型UQフレームワークであるCoT-UQを提案する。このフレームワークは,Chain-of-Thought (CoT) を通じて LLM 固有の推論機能を UQ プロセスに統合する。
論文参考訳（メタデータ） (2025-02-24T14:48:06Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs [35.74755307680801]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。本稿では,モデル信頼度と出力整合性を新たに合成する方法を提案する。
論文参考訳（メタデータ） (2025-02-07T14:30:12Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。典型的資源の5～15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文参考訳（メタデータ） (2024-03-29T16:49:24Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠であるほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文参考訳（メタデータ） (2022-07-27T07:50:57Z)
Uncertainty-aware Evaluation of Time-Series Classification for Online Handwriting Recognition with Domain Shift [2.7015517125109247]
本稿では,オンライン手書き文字認識のためのモデルに焦点を当てる。データは、文字を書くことを目標とするセンサー付きペンから観測される。モデルをよりよく理解するために、UQ技術はデータのアウト・オブ・ディストリビューションを検出することができる。
論文参考訳（メタデータ） (2022-06-17T09:05:01Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges [76.20963684020145]
不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。ビザレ近似とアンサンブル学習技術は、文学において最も広く使われている2つのUQ手法である。本研究は, 深層学習におけるUQ手法の最近の進歩を概観し, 強化学習におけるこれらの手法の適用について検討する。
論文参考訳（メタデータ） (2020-11-12T06:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。