論文の概要: How Well Do Large Language Models Truly Ground?
- arxiv url: http://arxiv.org/abs/2311.09069v2
- Date: Sat, 29 Jun 2024 18:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-02 17:30:47.168255
- Title: How Well Do Large Language Models Truly Ground?
- Title(参考訳): 大規模言語モデルはどのようにして真に構築されるのか?
- Authors: Hyunji Lee, Sejune Joo, Chaeeun Kim, Joel Jang, Doyoung Kim, Kyoung-Woon On, Minjoon Seo,
- Abstract要約: 一般的な方法は、知識強化モデルとして知られる入力として与えられる外部コンテキストに基づいて応答を生成することである。
以前の研究は「接地」を単に正しい答えを持つだけと定義しており、応答全体の信頼性を保証していない。
本稿では,(1)提供された文脈から必要な知識を十分に活用し,(2)その知識の限界内に留まっている場合,モデルが真に基礎を成すという,より厳密なグラウンド定義を提案する。
- 参考スコア(独自算出の注目度): 39.39062385290276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reduce issues like hallucinations and lack of control in Large Language Models (LLMs), a common method is to generate responses by grounding on external contexts given as input, known as knowledge-augmented models. However, previous research often narrowly defines "grounding" as just having the correct answer, which does not ensure the reliability of the entire response. To overcome this, we propose a stricter definition of grounding: a model is truly grounded if it (1) fully utilizes the necessary knowledge from the provided context, and (2) stays within the limits of that knowledge. We introduce a new dataset and a grounding metric to evaluate model capability under the definition. We perform experiments across 25 LLMs of different sizes and training methods and provide insights into factors that influence grounding performance. Our findings contribute to a better understanding of how to improve grounding capabilities and suggest an area of improvement toward more reliable and controllable LLM applications.
- Abstract(参考訳): 幻覚やLLM(Large Language Models)における制御の欠如といった問題を解消するために、知識強化モデルとして知られる入力として与えられる外部コンテキストに基づいて応答を生成するのが一般的な方法である。
しかし、以前の研究はしばしば「接地」を単に正しい答えを持つだけであると定義しており、これは応答全体の信頼性を保証するものではない。
そこで本研究では,(1)提供された文脈から必要な知識を十分に活用し,(2)その知識の限界内に留まっている場合,モデルが真に基礎を成すという,より厳密なグラウンド定義を提案する。
定義の下でモデル機能を評価するために,新しいデータセットとグラウンド化メトリックを導入する。
異なる大きさの25のLLMを対象に実験を行い,基礎性能に影響を与える要因について考察した。
本研究は,より信頼性が高く制御可能なLLMアプリケーションに向けた改良領域を提案するとともに,基礎機能の改善方法の理解を深めることに寄与する。
関連論文リスト
- Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Grounding Gaps in Language Model Generations [67.79817087930678]
大規模言語モデルが人間の接地を反映したテキストを生成するかどうかを考察する。
人間に比べ、LLMは会話の基盤を減らした言語を生成する。
同定された接地ギャップの根源を理解するために,命令チューニングと選好最適化の役割について検討する。
論文 参考訳(メタデータ) (2023-11-15T17:40:27Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Probing Factually Grounded Content Transfer with Factual Ablation [68.78413677690321]
グラウンドドジェネレーションは、事実情報の信頼性のある外部文書(グラウンドディング)に描画する。
事実を計測するのも簡単で、すべての事実ではなく、世代が根拠に同意するかどうかをテストする。
本稿では,現実的な根拠からの情報を用いて,世代がプロンプトを拡大するコンテンツ転送問題について検討する。
論文 参考訳(メタデータ) (2022-03-18T19:18:54Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。