論文の概要: On the Limitations of Large Language Models (LLMs): False Attribution
- arxiv url: http://arxiv.org/abs/2404.04631v1
- Date: Sat, 6 Apr 2024 13:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:19:42.377732
- Title: On the Limitations of Large Language Models (LLMs): False Attribution
- Title(参考訳): 大言語モデル(LLM)の限界について : 偽属性
- Authors: Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney,
- Abstract要約: 新しい幻覚指標-SHI(Simple Hallucination Index)を紹介する。
ゼロショット設定における3つのオープン SotA LLM のパワーを実験的に評価した。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we provide insight into one important limitation of large language models (LLMs), i.e. false attribution, and introduce a new hallucination metric - Simple Hallucination Index (SHI). The task of automatic author attribution for relatively small chunks of text is an important NLP task but can be challenging. We empirically evaluate the power of 3 open SotA LLMs in zero-shot setting (LLaMA-2-13B, Mixtral 8x7B, and Gemma-7B), especially as human annotation can be costly. We collected the top 10 most popular books, according to Project Gutenberg, divided each one into equal chunks of 400 words, and asked each LLM to predict the author. We then randomly sampled 162 chunks for human evaluation from each of the annotated books, based on the error margin of 7% and a confidence level of 95% for the book with the most chunks (Great Expectations by Charles Dickens, having 922 chunks). The average results show that Mixtral 8x7B has the highest prediction accuracy, the lowest SHI, and a Pearson's correlation (r) of 0.737, 0.249, and -0.9996, respectively, followed by LLaMA-2-13B and Gemma-7B. However, Mixtral 8x7B suffers from high hallucinations for 3 books, rising as high as an SHI of 0.87 (in the range 0-1, where 1 is the worst). The strong negative correlation of accuracy and SHI, given by r, demonstrates the fidelity of the new hallucination metric, which is generalizable to other tasks. We publicly release the annotated chunks of data and our codes to aid the reproducibility and evaluation of other models.
- Abstract(参考訳): 本研究では,大きな言語モデル (LLM) の1つの重要な制限,すなわち偽帰属について考察し,新しい幻覚指標であるSimple Hallucination Index (SHI) を導入する。
比較的少量のテキストに対する自動著者帰属のタスクは、重要なNLPタスクであるが、困難である。
ゼロショット設定(LLaMA-2-13B、Mixtral 8x7B、Gemma-7B)における3つのオープン SotA LLM のパワーを実証的に評価する。
Project Gutenbergによると、私たちは最も人気のある書籍のトップ10を収集し、それぞれを400語に等しく分割し、著者を予測するためにそれぞれのLSMに頼みました。
162チャンクをランダムにサンプリングし,各注釈書のエラーマージンを7%,信頼度を95%とした(チャールズ・ディケンズによる大期待,922チャンク)。
その結果,Mixtral 8x7Bは予測精度が最も高く,最も低いShi,Pearson相関(r)は0.737,0.249,-0.9996であり,LLaMA-2-13B,Gemma-7Bが続くことがわかった。
しかし、Mixtral 8x7Bは3冊の幻覚に悩まされており、Shiは0.87(最悪の範囲は0-1)まで上昇している。
r が与える精度と Shi の強い負の相関は、他のタスクに一般化可能な新しい幻覚計量の忠実さを示す。
我々は、他のモデルの再現性と評価を支援するために、注釈付きデータの塊とコードを公開した。
関連論文リスト
- One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Metric Ensembles For Hallucination Detection [0.0]
抽象的な要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要があることである。
要約整合性のための教師なしメトリクスの組について検討し、それらの相関関係を人的評価スコアを用いて測定する。
LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T15:17:22Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。