Fugu-MT 論文翻訳(概要): Sources of Hallucination by Large Language Models on Inference Tasks

論文の概要: Sources of Hallucination by Large Language Models on Inference Tasks

arxiv url: http://arxiv.org/abs/2305.14552v1
Date: Tue, 23 May 2023 22:24:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 21:26:13.231586
Title: Sources of Hallucination by Large Language Models on Inference Tasks
Title（参考訳）: 推論課題に基づく大規模言語モデルによる幻覚の源泉
Authors: Nick McKenna, Tianyi Li, Liang Cheng, Mohammad Javad Hosseini, Mark Johnson, Mark Steedman
Abstract要約: 大規模言語モデル (LLM) は自然言語推論 (NLI) が可能なと主張している。モデルでは,NLIテストサンプルを,その仮説がトレーニングテキストで検証された場合に関連付けるものとして,誤ってラベル付けしていることを示す。第2に,LLMは単語の相対周波数を用いてコーパスベースの記憶を更に活用することを示す。
参考スコア（独自算出の注目度）: 23.16519851985028
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are claimed to be capable of Natural Language Inference (NLI), necessary for applied tasks like question answering and summarization, yet this capability is under-explored. We present a series of behavioral studies on several LLM families (LLaMA, GPT-3.5, and PaLM) which probe their behavior using controlled experiments. We establish two factors which predict much of their performance, and propose that these are major sources of hallucination in generative LLM. First, the most influential factor is memorization of the training data. We show that models falsely label NLI test samples as entailing when the hypothesis is attested in the training text, regardless of the premise. We further show that named entity IDs are used as "indices" to access the memorized data. Second, we show that LLMs exploit a further corpus-based heuristic using the relative frequencies of words. We show that LLMs score significantly worse on NLI test samples which do not conform to these factors than those which do; we also discuss a tension between the two factors, and a performance trade-off.
Abstract（参考訳）: 大規模言語モデル(llm)は、質問応答や要約といった応用タスクに必要な自然言語推論(nli)能力があると主張しているが、この能力は未検討である。制御実験により,複数のLPMファミリー(LLaMA, GPT-3.5, PaLM)の行動調査を行った。我々は,その性能を予測できる2つの要因を確立し,これらが生成LDMの主要な幻覚源であることを示す。第一に、最も影響力のある要因はトレーニングデータの記憶である。前提によらず,仮説がトレーニングテキストで検証された場合,NLIテストサンプルを偽ラベルとして示す。さらに、名前付きエンティティIDが記憶データにアクセスするために"インデックス"として使用されることを示す。第2に,LLMは単語の相対周波数を用いてコーパスベースのヒューリスティックを利用することを示す。また,これらの因子に適合しないNLI試験において,LLMのスコアが有意に低下していることを示し,両者の緊張関係と性能トレードオフについても考察した。

関連論文リスト

Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results [10.858989372235657]
本研究では,複数のLCM-as-a-judgeセットアップとプロンプトを用いて,これらのクエリに対する応答を評価する。基礎研究として,LLM間の合意と回答および評価LLMの変化の影響について,2つの事例研究を行った。
論文参考訳（メタデータ） (2025-11-04T04:20:33Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文参考訳（メタデータ） (2025-06-11T06:30:28Z)
Implicit Causality-biases in humans and LLMs as a tool for benchmarking LLM discourse capabilities [0.0]
モデルサイズの範囲にまたがる単言語LLMと多言語LLMで生成されたデータと、被験者が提供したデータとを比較した。我々は,より一般的な談話理解能力のための堅牢なプロキシとして,談話バイアスを伴うLLMの能力を評価するためのベンチマークを開発することを目的とする。
論文参考訳（メタデータ） (2025-01-22T16:07:24Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference [3.0804372027733202]
我々は,GPT-4,Llama-2,Mistral 7bを用いて,スタンフォードNLIコーパスの一部を再現した。我々は仮説のみの分類器を訓練し、LLMによる仮説がアノテーションのアーティファクトを含んでいるかどうかを判断する。我々の分析は、NLIにおける十分に証明されたバイアスがLLM生成データに持続できるという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-10-11T17:09:22Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。このタスクにより、PLMは語彙意味情報を学習することができる。
論文参考訳（メタデータ） (2022-05-08T08:37:36Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。