Fugu-MT 論文翻訳(概要): On the Limitations of Large Language Models (LLMs): False Attribution

論文の概要: On the Limitations of Large Language Models (LLMs): False Attribution

arxiv url: http://arxiv.org/abs/2404.04631v1
Date: Sat, 6 Apr 2024 13:38:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 20:19:42.377732
Title: On the Limitations of Large Language Models (LLMs): False Attribution
Title（参考訳）: 大言語モデル(LLM)の限界について : 偽属性
Authors: Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney,
Abstract要約: 新しい幻覚指標-SHI(Simple Hallucination Index)を紹介する。ゼロショット設定における3つのオープン SotA LLM のパワーを実験的に評価した。
参考スコア（独自算出の注目度）: 0.22499166814992438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we provide insight into one important limitation of large language models (LLMs), i.e. false attribution, and introduce a new hallucination metric - Simple Hallucination Index (SHI). The task of automatic author attribution for relatively small chunks of text is an important NLP task but can be challenging. We empirically evaluate the power of 3 open SotA LLMs in zero-shot setting (LLaMA-2-13B, Mixtral 8x7B, and Gemma-7B), especially as human annotation can be costly. We collected the top 10 most popular books, according to Project Gutenberg, divided each one into equal chunks of 400 words, and asked each LLM to predict the author. We then randomly sampled 162 chunks for human evaluation from each of the annotated books, based on the error margin of 7% and a confidence level of 95% for the book with the most chunks (Great Expectations by Charles Dickens, having 922 chunks). The average results show that Mixtral 8x7B has the highest prediction accuracy, the lowest SHI, and a Pearson's correlation (r) of 0.737, 0.249, and -0.9996, respectively, followed by LLaMA-2-13B and Gemma-7B. However, Mixtral 8x7B suffers from high hallucinations for 3 books, rising as high as an SHI of 0.87 (in the range 0-1, where 1 is the worst). The strong negative correlation of accuracy and SHI, given by r, demonstrates the fidelity of the new hallucination metric, which is generalizable to other tasks. We publicly release the annotated chunks of data and our codes to aid the reproducibility and evaluation of other models.
Abstract（参考訳）: 本研究では,大きな言語モデル (LLM) の1つの重要な制限,すなわち偽帰属について考察し,新しい幻覚指標であるSimple Hallucination Index (SHI) を導入する。比較的少量のテキストに対する自動著者帰属のタスクは、重要なNLPタスクであるが、困難である。ゼロショット設定(LLaMA-2-13B、Mixtral 8x7B、Gemma-7B)における3つのオープン SotA LLM のパワーを実証的に評価する。 Project Gutenbergによると、私たちは最も人気のある書籍のトップ10を収集し、それぞれを400語に等しく分割し、著者を予測するためにそれぞれのLSMに頼みました。 162チャンクをランダムにサンプリングし,各注釈書のエラーマージンを7%,信頼度を95%とした(チャールズ・ディケンズによる大期待,922チャンク)。その結果,Mixtral 8x7Bは予測精度が最も高く,最も低いShi,Pearson相関(r)は0.737,0.249,-0.9996であり,LLaMA-2-13B,Gemma-7Bが続くことがわかった。しかし、Mixtral 8x7Bは3冊の幻覚に悩まされており、Shiは0.87(最悪の範囲は0-1)まで上昇している。 r が与える精度と Shi の強い負の相関は、他のタスクに一般化可能な新しい幻覚計量の忠実さを示す。我々は、他のモデルの再現性と評価を支援するために、注釈付きデータの塊とコードを公開した。

関連論文リスト

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms [0.0]
フィールドテストによるアイテムの難易度の推定は、しばしばリソース集約的で時間を要する。本研究は,大言語モデル(LLM)を用いて,K-5数学および読解評価項目の項目難易度を予測することの実現可能性について検討する。
論文参考訳（メタデータ） (2025-04-09T00:04:07Z)
Prediction of Item Difficulty for Reading Comprehension Items by Creation of Annotated Item Repository [2.5984661605688397]
テキストの内容に基づいてアイテムの難易度を予測することは大きな関心事である。我々は、もともと報告されたアイテムp-値のデータをIRTベースの難易度を回復する関連問題に焦点をあてる。本リポジトリには,(1)読解項目の言語的特徴,(2)読解項目のテスト特徴,(3)文脈特徴に関するメタデータが付加されている。
論文参考訳（メタデータ） (2025-02-28T02:42:13Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文参考訳（メタデータ） (2024-06-24T02:03:57Z)
Metric Ensembles For Hallucination Detection [0.0]
抽象的な要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要があることである。要約整合性のための教師なしメトリクスの組について検討し、それらの相関関係を人的評価スコアを用いて測定する。 LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
論文参考訳（メタデータ） (2023-10-16T15:17:22Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
Effective Proxy for Human Labeling: Ensemble Disagreement Scores in Large Language Models for Industrial NLP [6.429005147017301]
アンサンブル不一致スコアは、ゼロショット、少数ショット、微調整の設定において、言語モデルに対する人間のラベル付けのプロキシとして機能することを示す。様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。
論文参考訳（メタデータ） (2023-09-11T17:07:01Z)
BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。 BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文参考訳（メタデータ） (2022-12-20T02:17:30Z)
Evaluating the Factual Consistency of Large Language Models Through News Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文参考訳（メタデータ） (2022-11-15T18:50:34Z)
Not All Errors are Equal: Learning Text Generation Metrics using Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。 SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文参考訳（メタデータ） (2022-10-10T22:30:26Z)
A shallow neural model for relation prediction [2.2559617939136505]
本稿では,エンティティからの欠落関係を正確に推測する浅層神経モデル(shallom)を提案する。本実験は、SHALLOMがFB15K-237およびWN18RRデータセットにおける最先端のアプローチを上回っていることを示しています。
論文参考訳（メタデータ） (2021-01-22T13:10:11Z)
What Can We Learn from Collective Human Opinions on Natural Language Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文参考訳（メタデータ） (2020-10-07T17:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。