論文の概要: Generating Benchmarks for Factuality Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2307.06908v2
- Date: Sun, 4 Feb 2024 09:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:52:30.776350
- Title: Generating Benchmarks for Factuality Evaluation of Language Models
- Title(参考訳): 言語モデルのファクチュアリティ評価のためのベンチマークの作成
- Authors: Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan
Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham
- Abstract要約: FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
- 参考スコア(独自算出の注目度): 61.69950787311278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Before deploying a language model (LM) within a given domain, it is important
to measure its tendency to generate factually incorrect information in that
domain. Existing methods for factuality evaluation of LLM generation focus on
facts sampled from the LM itself, and thus do not control the set of evaluated
facts and might under-represent domain specific or rare facts. We propose
FACTOR: Factual Assessment via Corpus TransfORmation, a scalable approach for
evaluating LM factuality. FACTOR automatically transforms a factual corpus of
interest into a benchmark evaluating an LM's propensity to generate true facts
from the corpus vs. similar but incorrect statements. We use our framework to
create three benchmarks: Wiki-FACTOR, News-FACTOR and Expert-FACTOR. We show
that: (i) our benchmark scores increase with model size and improve when the LM
is augmented with retrieval; (ii) benchmark score and perplexity do not always
agree on model ranking; (iii) when perplexity and benchmark score disagree, the
latter better reflects factuality in open-ended generation, as measured by
human annotators. We make our data and code publicly available in
https://github.com/AI21Labs/factor.
- Abstract(参考訳): 言語モデル(LM)を特定のドメインにデプロイする前に、そのドメインで事実的に誤った情報を生成する傾向を測定することが重要である。
LLM生成の事実性評価のための既存の方法は、LM自体からサンプリングされた事実に焦点を当てており、評価された事実の集合を制御せず、ドメイン固有または稀な事実を過小に表現する可能性がある。
本稿では,lmの事実性を評価するためのスケーラブルな手法であるコーパス変換による事実評価を提案する。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
我々は、Wiki-FACTOR、News-FACTOR、Expert-FACTORの3つのベンチマークを作成するためにフレームワークを使用します。
ご覧の通りです
(i)我々のベンチマークスコアはモデルサイズによって増加し、LMが検索で拡張されたときに改善される。
(ii)ベンチマークスコアとパープレキシティは、必ずしもモデルランキングに一致しない。
(iii) パープレキシティとベンチマークスコアが一致しない場合、後者は、人間の注釈によって測定されるように、開放された世代の事実性をよりよく反映する。
私たちはデータとコードをhttps://github.com/AI21Labs/factorで公開しています。
関連論文リスト
- Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - FactKB: Generalizable Factuality Evaluation using Language Models
Enhanced with Factual Knowledge [37.2179237007464]
本稿では,ドメイン間で一般化可能なファクトリティー評価手法であるFactKBを提案する。
本稿では, 直接実体事実に基づく補完的事実事前学習の目的, 実体に関する補助的知識に基づく事実, 知識ベースウォークを通じて構成的に構築された事実の3つの種類を紹介する。
結果の事実性評価モデルは、2つのドメイン内ニュース要約ベンチマークと3つのドメイン外科学文献データセットに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-14T23:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。