Fugu-MT 論文翻訳(概要): Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

論文の概要: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph

arxiv url: http://arxiv.org/abs/2406.15627v3
Date: Fri, 10 Jan 2025 10:24:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:14.948127
Title: Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph
Title（参考訳）: LM-Polygraphを用いた大規模言語モデルの不確実性定量化手法のベンチマーク
Authors: Roman Vashurin, Ekaterina Fadeeva, Artem Vazhentsev, Lyudmila Rvanova, Akim Tsvigun, Daniil Vasilev, Rui Xing, Abdelrahman Boda Sadallah, Kirill Grishchenkov, Sergey Petrakov, Alexander Panchenko, Timothy Baldwin, Preslav Nakov, Maxim Panov, Artem Shelmanov,
Abstract要約: 不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
参考スコア（独自算出の注目度）: 83.90988015005934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid proliferation of large language models (LLMs) has stimulated researchers to seek effective and efficient approaches to deal with LLM hallucinations and low-quality outputs. Uncertainty quantification (UQ) is a key element of machine learning applications in dealing with such challenges. However, research to date on UQ for LLMs has been fragmented in terms of techniques and evaluation methodologies. In this work, we address this issue by introducing a novel benchmark that implements a collection of state-of-the-art UQ baselines and offers an environment for controllable and consistent evaluation of novel UQ techniques over various text generation tasks. Our benchmark also supports the assessment of confidence normalization methods in terms of their ability to provide interpretable scores. Using our benchmark, we conduct a large-scale empirical investigation of UQ and normalization techniques across eleven tasks, identifying the most effective approaches. Code: https://github.com/IINemo/lm-polygraph Benchmark: https://huggingface.co/LM-Polygraph
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な普及は、LLM幻覚や低品質出力に対処するための効率的かつ効率的なアプローチを研究者に求めている。不確実性定量化(英: Uncertainty Quantification, UQ)は、機械学習アプリケーションにおいて、このような課題に対処する上で重要な要素である。しかし,LLMのUQに関するこれまでの研究は,技術や評価手法の面で断片化されている。本研究では,最新のUQベースラインの集合を実装し,様々なテキスト生成タスクに対して新しいUQテクニックを制御可能かつ一貫した評価を行う環境を提供する新しいベンチマークを導入することで,この問題に対処する。また,本ベンチマークでは,信頼度正規化手法の評価を,解釈可能なスコアを提供する能力の観点から支援している。本ベンチマークを用いて,11タスクにわたるUQと正規化手法を大規模に検討し,最も効果的な手法を同定する。コード:https://github.com/IINemo/lm-polygraph Benchmark: https://huggingface.co/LM-Polygraph

関連論文リスト

MUCH: A Multilingual Claim Hallucination Benchmark [5.6001617185032595]
その多くは、将来の手法の公平かつ再現可能な評価のために設計された最初のクレームレベルのUQベンチマークである。 4つのヨーロッパ言語(英語、フランス語、スペイン語、ドイツ語)にまたがる4,873のサンプルと、4つの命令で調整されたオープンウェイトLLMが含まれている。
論文参考訳（メタデータ） (2025-11-21T09:37:16Z)
Evaluating Uncertainty Quantification Methods in Argumentative Large Language Models [24.97354151540176]
我々は,異なるUQ手法を用いる場合のクレーム検証タスクにおいて,ArgLLMsの性能を評価する実験を行う。これらの結果から,ArgLLMsでは直接的プロンプトが有効なUQ戦略であることが示唆された。
論文参考訳（メタデータ） (2025-09-26T19:59:09Z)
Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding [27.02879006439693]
本研究は、総合的な実証的研究を行い、テキスト異常検出のためのベンチマークを導入する。本研究は,埋め込み型テキスト異常検出の有効性を系統的に評価する。ベンチマークツールキットをオープンソース化することで、この研究は、堅牢でスケーラブルなテキスト異常検出システムにおける将来の研究の基礎を提供する。
論文参考訳（メタデータ） (2025-07-16T14:47:41Z)
CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。 LLMの既存の不確実性定量化(UQ)法は、主に応答性よりも即時的であり、高い計算コストを発生させる。応答型UQフレームワークであるCoT-UQを提案する。このフレームワークは,Chain-of-Thought (CoT) を通じて LLM 固有の推論機能を UQ プロセスに統合する。
論文参考訳（メタデータ） (2025-02-24T14:48:06Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
CoCoA: A Generalized Approach to Uncertainty Quantification by Integrating Confidence and Consistency of LLM Outputs [35.74755307680801]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。本稿では,モデル信頼度と出力整合性を新たに合成する方法を提案する。
論文参考訳（メタデータ） (2025-02-07T14:30:12Z)
Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。典型的資源の5～15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
LUQ: Long-text Uncertainty Quantification for LLMs [29.987010627250527]
大規模言語モデル(LLM)は、非現実的なコンテンツを生成する傾向がある。不確実性定量化(UQ)は、モデルの生成に対する信頼性の理解を高める上で重要である。我々は,複数のモデルからの応答をアンサンブルし,最も低い不確実性で応答を選択するTextscLuq-Ensembleを提案する。
論文参考訳（メタデータ） (2024-03-29T16:49:24Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠であるほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文参考訳（メタデータ） (2022-07-27T07:50:57Z)
Uncertainty-aware Evaluation of Time-Series Classification for Online Handwriting Recognition with Domain Shift [2.7015517125109247]
本稿では,オンライン手書き文字認識のためのモデルに焦点を当てる。データは、文字を書くことを目標とするセンサー付きペンから観測される。モデルをよりよく理解するために、UQ技術はデータのアウト・オブ・ディストリビューションを検出することができる。
論文参考訳（メタデータ） (2022-06-17T09:05:01Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
A Review of Uncertainty Quantification in Deep Learning: Techniques, Applications and Challenges [76.20963684020145]
不確実性定量化(UQ)は、最適化と意思決定プロセスの両方において不確実性の低減に重要な役割を果たしている。ビザレ近似とアンサンブル学習技術は、文学において最も広く使われている2つのUQ手法である。本研究は, 深層学習におけるUQ手法の最近の進歩を概観し, 強化学習におけるこれらの手法の適用について検討する。
論文参考訳（メタデータ） (2020-11-12T06:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。