論文の概要: Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2404.07060v1
- Date: Wed, 10 Apr 2024 14:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 14:11:27.413901
- Title: Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study
- Title(参考訳): 検索型ロングフォームジェネレーションにおけるグラウンドドネス : 実証的研究
- Authors: Alessandro Stolfo,
- Abstract要約: 検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
- 参考スコア(独自算出の注目度): 61.74571814707054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an empirical study of groundedness in long-form question answering (LFQA) by retrieval-augmented large language models (LLMs). In particular, we evaluate whether every generated sentence is grounded in the retrieved documents or the model's pre-training data. Across 3 datasets and 4 model families, our findings reveal that a significant fraction of generated sentences are consistently ungrounded, even when those sentences contain correct ground-truth answers. Additionally, we examine the impacts of factors such as model size, decoding strategy, and instruction tuning on groundedness. Our results show that while larger models tend to ground their outputs more effectively, a significant portion of correct answers remains compromised by hallucinations. This study provides novel insights into the groundedness challenges in LFQA and underscores the necessity for more robust mechanisms in LLMs to mitigate the generation of ungrounded content.
- Abstract(参考訳): 本稿では,Long-form question answering (LFQA) における基底性に関する実験的検討を行った。
特に、検索した文書に生成された文が全て接地されているか、またはモデルの事前学習データであるかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、これらの文が正しい接地的回答を含む場合でも、生成した文のかなりの部分が一貫して非接地されていることが明らかとなった。
さらに,モデルサイズ,復号化戦略,命令チューニングなどの要因が接地性に与える影響についても検討した。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
本研究は, LFQAにおける基底性課題に関する新たな知見を提供し, 未接地コンテンツの生成を緩和するために, LLMのより堅牢なメカニズムの必要性を浮き彫りにしている。
関連論文リスト
- Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - Regressive Side Effects of Training Language Models to Mimic Student Misconceptions [25.90420385230675]
大規模言語モデルは、学生の誤解をより正確に模倣するように訓練されているため、モデルの事実的完全性と推論能力に妥協がある、という問題を強調する。
これらの副作用に対処するため,本研究では,学生の学習中に各学生の反応の先頭に付加された「幻覚トークン」手法を導入し,学生の誤解を模倣することと,事実的に正確な反応を提供することをモデルに指示した。
論文 参考訳(メタデータ) (2024-04-23T15:57:55Z) - Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding
with Fakepedia [68.00056517461402]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - How Well Do Large Language Models Truly Ground? [41.36589507268335]
LLM(Large Language Models)の固有の知識への依存は幻覚などの問題を引き起こす可能性がある。
これを軽減するために、LLMをプローブして外部コンテキストに基づいて応答を生成する。
論文 参考訳(メタデータ) (2023-11-15T16:11:27Z) - Understanding Retrieval Augmentation for Long-Form Question Answering [44.19142029392175]
本稿では,長文質問応答における検索強化言語モデル(LM)について検討する。
モデルから生成した回答を同一の証拠文書を用いて比較することにより,検索強化が異なるLMに与える影響を解析する。
論文 参考訳(メタデータ) (2023-10-18T17:59:10Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - "According to ...": Prompting Language Models Improves Quoting from
Pre-Training Data [52.03853726206584]
LLM(Large Language Models)は、実データに基づいて事前訓練されているにもかかわらず、幻覚と偽情報を生成する。
本稿では,従来観察されていたテキストに対してLLMを接地応答に誘導する手法を提案する。
基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を計測する新しい評価指標(QUIP-Score)を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:25:24Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。