論文の概要: On the Limitations of Large Language Models (LLMs): False Attribution
- arxiv url: http://arxiv.org/abs/2404.04631v2
- Date: Thu, 17 Jul 2025 08:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.149295
- Title: On the Limitations of Large Language Models (LLMs): False Attribution
- Title(参考訳): 大言語モデル(LLM)の限界について : 偽属性
- Authors: Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney,
- Abstract要約: 新しい幻覚指標-SHI(Simple Hallucination Index)を紹介する。
ゼロショット設定における3つのオープン SotA LLM のパワーを実験的に評価した。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a new hallucination metric - Simple Hallucination Index (SHI) and provide insight into one important limitation of the parametric knowledge of large language models (LLMs), i.e. false attribution. The task of automatic author attribution for relatively small chunks of text is an important NLP task but can be challenging. We empirically evaluate the power of 3 open SotA LLMs in zero-shot setting (Gemma-7B, Mixtral 8x7B, and LLaMA-2-13B). We acquired the top 10 most popular books of a month, according to Project Gutenberg, divided each one into equal chunks of 400 words, and prompted each LLM to predict the author. We then randomly sampled 162 chunks per book for human evaluation, based on the error margin of 7% and a confidence level of 95%. The average results show that Mixtral 8x7B has the highest prediction accuracy, the lowest SHI, and a Pearson's correlation (r) of 0.724, 0.263, and -0.9996, respectively, followed by LLaMA-2-13B and Gemma-7B. However, Mixtral 8x7B suffers from high hallucinations for 3 books, rising as high as a SHI of 0.87 (in the range 0-1, where 1 is the worst). The strong negative correlation of accuracy and SHI, given by r, demonstrates the fidelity of the new hallucination metric, which may generalize to other tasks. We also show that prediction accuracies correlate positively with the frequencies of Wikipedia instances of the book titles instead of the downloads and we perform error analyses of predictions. We publicly release the annotated chunks of data and our codes to aid the reproducibility and evaluation of other models.
- Abstract(参考訳): 本研究では,新たな幻覚指標であるSimple Hallucination Index (SHI)を導入し,大規模言語モデル(LLM)のパラメトリック知識の1つの重要な制限,すなわち偽属性について考察する。
比較的少量のテキストに対する自動著者帰属のタスクは、重要なNLPタスクであるが、困難である。
ゼロショット設定(Gemma-7B,Mixtral 8x7B,LLaMA-2-13B)における3つのオープン SotA LLM のパワーを実験的に評価した。
Project Gutenbergによると、私たちは1ヶ月で一番人気の本を10冊獲得し、それぞれを同じ400ワードのチャンクに分割し、それぞれのLSMに著者を予測させました。
次に、エラーマージン7%、信頼度95%に基づいて、1冊あたり162チャンクをランダムにサンプリングした。
その結果,Mixtral 8x7Bの予測精度が最も高く,最も低いShi,Pearson相関(r)はそれぞれ0.724,0.263,-0.9996,LLaMA-2-13B,Gemma-7Bであった。
しかし、Mixtral 8x7Bは3冊の幻覚に悩まされており、Shiは0.87(最悪の範囲は0-1)まで上昇している。
r が与える精度と Shi の強い負の相関は、他のタスクに一般化できる新しい幻覚計量の忠実さを示す。
また, 予測精度は, ダウンロードではなく, 書籍のウィキペディアインスタンスの頻度と正の相関を示し, 予測の誤り解析を行う。
我々は、他のモデルの再現性と評価を支援するために、注釈付きデータの塊とコードを公開した。
関連論文リスト
- Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms [0.0]
フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。
本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
論文 参考訳(メタデータ) (2025-04-09T00:04:07Z) - Prediction of Item Difficulty for Reading Comprehension Items by Creation of Annotated Item Repository [2.5984661605688397]
テキストの内容に基づいてアイテムの難易度を予測することは大きな関心事である。
我々は、もともと報告されたアイテムp-値のデータをIRTベースの難易度を回復する関連問題に焦点をあてる。
本リポジトリには,(1)読解項目の言語的特徴,(2)読解項目のテスト特徴,(3)文脈特徴に関するメタデータが付加されている。
論文 参考訳(メタデータ) (2025-02-28T02:42:13Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Metric Ensembles For Hallucination Detection [0.0]
抽象的な要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要があることである。
要約整合性のための教師なしメトリクスの組について検討し、それらの相関関係を人的評価スコアを用いて測定する。
LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T15:17:22Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Effective Proxy for Human Labeling: Ensemble Disagreement Scores in
Large Language Models for Industrial NLP [6.429005147017301]
アンサンブル不一致スコアは、ゼロショット、少数ショット、微調整の設定において、言語モデルに対する人間のラベル付けのプロキシとして機能することを示す。
様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。
論文 参考訳(メタデータ) (2023-09-11T17:07:01Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - A shallow neural model for relation prediction [2.2559617939136505]
本稿では,エンティティからの欠落関係を正確に推測する浅層神経モデル(shallom)を提案する。
本実験は、SHALLOMがFB15K-237およびWN18RRデータセットにおける最先端のアプローチを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-01-22T13:10:11Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。