Fugu-MT 論文翻訳(概要): LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

論文の概要: LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond

arxiv url: http://arxiv.org/abs/2305.14540v1
Date: Tue, 23 May 2023 21:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 21:36:13.807260
Title: LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
Title（参考訳）: ファクチュアルリゾナーとしてのLLM:既存のベンチマークとそれ以上の視点
Authors: Philippe Laban, Wojciech Kry\'sci\'nski, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
Abstract要約: そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
参考スコア（独自算出の注目度）: 135.8013388183257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the recent appearance of LLMs in practical settings, having methods that can effectively detect factual inconsistencies is crucial to reduce the propagation of misinformation and improve trust in model outputs. When testing on existing factual consistency benchmarks, we find that a few large language models (LLMs) perform competitively on classification benchmarks for factual inconsistency detection compared to traditional non-LLM methods. However, a closer analysis reveals that most LLMs fail on more complex formulations of the task and exposes issues with existing evaluation benchmarks, affecting evaluation precision. To address this, we propose a new protocol for inconsistency detection benchmark creation and implement it in a 10-domain benchmark called SummEdits. This new benchmark is 20 times more cost-effective per sample than previous benchmarks and highly reproducible, as we estimate inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with performance close to random chance. The best-performing model, GPT-4, is still 8\% below estimated human performance, highlighting the gaps in LLMs' ability to reason about facts and detect inconsistencies when they occur.
Abstract（参考訳）: 近年のLCMの実用化に伴い, 誤情報の伝播を低減し, モデル出力の信頼性を向上させるために, 事実上の矛盾を効果的に検出できる手法が求められている。既存の事実整合性ベンチマークをテストすると、いくつかの大規模言語モデル(LLM)が、従来の非LLM法と比較して、事実整合性検出のための分類ベンチマークを競合的に実行していることが分かる。しかし、より詳細な分析により、ほとんどのLLMはタスクのより複雑な定式化に失敗し、既存の評価ベンチマークの問題を露呈し、評価精度に影響を及ぼすことが明らかになった。そこで本稿では,SummEditsと呼ばれる10ドメインベンチマークで不整合検出ベンチマークを作成し,実装するための新しいプロトコルを提案する。この新しいベンチマークは、従来のベンチマークの20倍の費用効果があり、アノテータ間の合意を約0.9と見積もっている。ほとんどのLLMはSummEditsで苦労し、パフォーマンスはランダムな確率に近づいた。最高のパフォーマンスモデルであるGPT-4は、推定された人間のパフォーマンスよりも8倍低く、LLMが事実を推論し、不整合を検知する能力のギャップを浮き彫りにしている。

関連論文リスト

Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文参考訳（メタデータ） (2025-02-02T06:36:01Z)
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。 GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文参考訳（メタデータ） (2024-12-19T18:58:04Z)
Towards Reproducible LLM Evaluation: Quantifying Uncertainty in LLM Benchmark Scores [2.886479348067378]
我々は、大きな言語モデルの能力をテストするために設計されたベンチマークを使用して、基準方向を推論する。本稿では,ベンチマークスコアの不確かさを定量的に定量化するための簡易な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T15:04:28Z)
LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts [7.680851067579922]
本稿では、中程度に洗練された攻撃者によって生成される短いニュースのような投稿という、情報操作における重要な設定に焦点を当てる。既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。 LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。
論文参考訳（メタデータ） (2024-09-05T06:55:13Z)
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。 LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文参考訳（メタデータ） (2024-06-26T13:12:40Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。 ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文参考訳（メタデータ） (2024-06-20T04:35:59Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。