論文の概要: Sources of Hallucination by Large Language Models on Inference Tasks
- arxiv url: http://arxiv.org/abs/2305.14552v1
- Date: Tue, 23 May 2023 22:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:26:13.231586
- Title: Sources of Hallucination by Large Language Models on Inference Tasks
- Title(参考訳): 推論課題に基づく大規模言語モデルによる幻覚の源泉
- Authors: Nick McKenna, Tianyi Li, Liang Cheng, Mohammad Javad Hosseini, Mark
Johnson, Mark Steedman
- Abstract要約: 大規模言語モデル (LLM) は自然言語推論 (NLI) が可能なと主張している。
モデルでは,NLIテストサンプルを,その仮説がトレーニングテキストで検証された場合に関連付けるものとして,誤ってラベル付けしていることを示す。
第2に,LLMは単語の相対周波数を用いてコーパスベースの記憶を更に活用することを示す。
- 参考スコア(独自算出の注目度): 23.16519851985028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are claimed to be capable of Natural Language
Inference (NLI), necessary for applied tasks like question answering and
summarization, yet this capability is under-explored. We present a series of
behavioral studies on several LLM families (LLaMA, GPT-3.5, and PaLM) which
probe their behavior using controlled experiments. We establish two factors
which predict much of their performance, and propose that these are major
sources of hallucination in generative LLM. First, the most influential factor
is memorization of the training data. We show that models falsely label NLI
test samples as entailing when the hypothesis is attested in the training text,
regardless of the premise. We further show that named entity IDs are used as
"indices" to access the memorized data. Second, we show that LLMs exploit a
further corpus-based heuristic using the relative frequencies of words. We show
that LLMs score significantly worse on NLI test samples which do not conform to
these factors than those which do; we also discuss a tension between the two
factors, and a performance trade-off.
- Abstract(参考訳): 大規模言語モデル(llm)は、質問応答や要約といった応用タスクに必要な自然言語推論(nli)能力があると主張しているが、この能力は未検討である。
制御実験により,複数のLPMファミリー(LLaMA, GPT-3.5, PaLM)の行動調査を行った。
我々は,その性能を予測できる2つの要因を確立し,これらが生成LDMの主要な幻覚源であることを示す。
第一に、最も影響力のある要因はトレーニングデータの記憶である。
前提によらず,仮説がトレーニングテキストで検証された場合,NLIテストサンプルを偽ラベルとして示す。
さらに、名前付きエンティティIDが記憶データにアクセスするために"インデックス"として使用されることを示す。
第2に,LLMは単語の相対周波数を用いてコーパスベースのヒューリスティックを利用することを示す。
また,これらの因子に適合しないNLI試験において,LLMのスコアが有意に低下していることを示し,両者の緊張関係と性能トレードオフについても考察した。
関連論文リスト
- Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [80.497886066705]
大規模言語モデル(LLM)は、可聴性に富むが、実際には正しくない応答を生成する傾向にある。
我々は,長期化タスクに対する幻覚をより確実に緩和するRLアプローチを開発した。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Confronting LLMs with Traditional ML: Rethinking the Fairness of Large Language Models in Tabular Classifications [23.963586791210414]
大規模言語モデル (LLM) は, 学習データから社会的偏見を継承する傾向にあり, 分類作業における公平性に大きな影響を及ぼすことを示した。
この観察は、社会的バイアスがLSM自体に固有のものであり、事前学習されたコーパスから継承されていることを強調している。
論文 参考訳(メタデータ) (2023-10-23T06:31:28Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - How trial-to-trial learning shapes mappings in the mental lexicon:
Modelling Lexical Decision with Linear Discriminative Learning [0.4450536872346657]
本研究では,未熟な語彙決定実験において,試行錯誤学習が検出できるかどうかを検討する。
我々は、分布意味論から表現する意味を持つ精神的語彙のモデルである差別的語彙モデル(DLM)を用いた。
我々の研究結果は、語彙的知識が継続的な変化の対象となる可能性を支持する。
論文 参考訳(メタデータ) (2022-07-01T13:49:30Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。