Fugu-MT 論文翻訳(概要): Benchmarking LLMs via Uncertainty Quantification

論文の概要: Benchmarking LLMs via Uncertainty Quantification

arxiv url: http://arxiv.org/abs/2401.12794v1
Date: Tue, 23 Jan 2024 14:29:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 15:17:16.045763
Title: Benchmarking LLMs via Uncertainty Quantification
Title（参考訳）: 不確実性定量化によるLCMのベンチマーク
Authors: Fanghua Ye, Mingming Yang, Jianhui Pang, Longyue Wang, Derek F. Wong, Emine Yilmaz, Shuming Shi, Zhaopeng Tu
Abstract要約: 我々は,Large Language Models (LLM) のための新しいベンチマーク手法を導入する。本試験では,5つの自然言語処理タスクにまたがる8つのLLMについて検討した。予測精度と予測不確実性の両方を考慮して,不確実性を考慮した評価指標UAccを導入する。
参考スコア（独自算出の注目度）: 95.67653501674995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of open-source Large Language Models (LLMs) from various institutions has highlighted the urgent need for comprehensive evaluation methods. However, current evaluation platforms, such as the widely recognized HuggingFace open LLM leaderboard, neglect a crucial aspect -- uncertainty, which is vital for thoroughly assessing LLMs. To bridge this gap, we introduce a new benchmarking approach for LLMs that integrates uncertainty quantification. Our examination involves eight LLMs (LLM series) spanning five representative natural language processing tasks. Additionally, we introduce an uncertainty-aware evaluation metric, UAcc, which takes into account both prediction accuracy and prediction uncertainty. Our findings reveal that: I) LLMs with higher accuracy may exhibit lower certainty; II) Larger-scale LLMs may display greater uncertainty compared to their smaller counterparts; and III) Instruction-finetuning tends to increase the uncertainty of LLMs. By taking uncertainty into account, our new UAcc metric can either amplify or diminish the relative improvement of one LLM over another and may even change the relative ranking of two LLMs. These results underscore the significance of incorporating uncertainty in the evaluation of LLMs.
Abstract（参考訳）: 各種機関からのオープンソースのLarge Language Models(LLM)の普及は,包括的評価手法の必要性を浮き彫りにした。しかし、広く認知されているhuggingface open llm leaderboardのような現在の評価プラットフォームは、重要な側面である不確実性を無視している。このギャップを埋めるために,不確実性定量化を統合したllmsのベンチマーク手法を提案する。本研究は,5つの自然言語処理タスクにまたがる8つのLLM(LLMシリーズ)について検討した。さらに,予測精度と予測の不確実性を考慮した不確実性認識評価指標であるuaccを導入する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。不確実性を考慮することで、我々の新しいUAcc測定基準は、1つのLSMの相対的な改善を他のLSMよりも増幅または減少させることができる。これらの結果はLLMの評価に不確かさを取り入れることの重要性を浮き彫りにした。

関連論文リスト

An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。 LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文参考訳（メタデータ） (2025-02-15T07:45:20Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。 FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文参考訳（メタデータ） (2024-02-27T01:37:23Z)
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文参考訳（メタデータ） (2024-02-07T12:28:32Z)
TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文参考訳（メタデータ） (2024-01-10T22:07:21Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models [16.524794442035265]
本研究では,不確実性のレンズを用いたLarge Language Models(LLM)のリスク評価について検討する。本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。我々の研究から得た洞察は、信頼性の高いLCMの設計と開発に光を当てた。
論文参考訳（メタデータ） (2023-07-16T08:28:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。