論文の概要: LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
- arxiv url: http://arxiv.org/abs/2305.14540v1
- Date: Tue, 23 May 2023 21:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:36:13.807260
- Title: LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond
- Title(参考訳): ファクチュアルリゾナーとしてのLLM:既存のベンチマークとそれ以上の視点
- Authors: Philippe Laban, Wojciech Kry\'sci\'nski, Divyansh Agarwal, Alexander
R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu
- Abstract要約: そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
- 参考スコア(独自算出の注目度): 135.8013388183257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent appearance of LLMs in practical settings, having methods that
can effectively detect factual inconsistencies is crucial to reduce the
propagation of misinformation and improve trust in model outputs. When testing
on existing factual consistency benchmarks, we find that a few large language
models (LLMs) perform competitively on classification benchmarks for factual
inconsistency detection compared to traditional non-LLM methods. However, a
closer analysis reveals that most LLMs fail on more complex formulations of the
task and exposes issues with existing evaluation benchmarks, affecting
evaluation precision. To address this, we propose a new protocol for
inconsistency detection benchmark creation and implement it in a 10-domain
benchmark called SummEdits. This new benchmark is 20 times more cost-effective
per sample than previous benchmarks and highly reproducible, as we estimate
inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with
performance close to random chance. The best-performing model, GPT-4, is still
8\% below estimated human performance, highlighting the gaps in LLMs' ability
to reason about facts and detect inconsistencies when they occur.
- Abstract(参考訳): 近年のLCMの実用化に伴い, 誤情報の伝播を低減し, モデル出力の信頼性を向上させるために, 事実上の矛盾を効果的に検出できる手法が求められている。
既存の事実整合性ベンチマークをテストすると、いくつかの大規模言語モデル(LLM)が、従来の非LLM法と比較して、事実整合性検出のための分類ベンチマークを競合的に実行していることが分かる。
しかし、より詳細な分析により、ほとんどのLLMはタスクのより複雑な定式化に失敗し、既存の評価ベンチマークの問題を露呈し、評価精度に影響を及ぼすことが明らかになった。
そこで本稿では,SummEditsと呼ばれる10ドメインベンチマークで不整合検出ベンチマークを作成し,実装するための新しいプロトコルを提案する。
この新しいベンチマークは、従来のベンチマークの20倍の費用効果があり、アノテータ間の合意を約0.9と見積もっている。
ほとんどのLLMはSummEditsで苦労し、パフォーマンスはランダムな確率に近づいた。
最高のパフォーマンスモデルであるGPT-4は、推定された人間のパフォーマンスよりも8倍低く、LLMが事実を推論し、不整合を検知する能力のギャップを浮き彫りにしている。
関連論文リスト
- tinyBenchmarks: evaluating LLMs with fewer examples [45.5148191005127]
Open LLM Leaderboard、MMLU、HELM、AlpacaEval 2.0。
実験により,これらのツールと小さなベンチマークは,元の評価結果を確実かつ効率的に再現するのに十分であることを実証した。
論文 参考訳(メタデータ) (2024-02-22T22:05:23Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Investigating Data Contamination in Modern Benchmarks for Large Language
Models [29.48101352768151]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Flames: Benchmarking Value Alignment of Chinese Large Language Models [89.06570864917784]
本稿では,Flames という,最初の高度に敵対的なベンチマークを提案する。
2,251個の手作業によるプロンプト、18.7Kのモデル応答と微粒なアノテーション、特定のスコアラーで構成されている。
我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Efficient Benchmarking of Language Models [23.45140610835939]
本稿では、信頼性を損なうことなく、LM評価の計算コストをインテリジェントに削減する効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性のトレードオフにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。