論文の概要: "According to ..." Prompting Language Models Improves Quoting from
Pre-Training Data
- arxiv url: http://arxiv.org/abs/2305.13252v1
- Date: Mon, 22 May 2023 17:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:58:33.062017
- Title: "According to ..." Prompting Language Models Improves Quoting from
Pre-Training Data
- Title(参考訳): 「...」
Prompting Language Modelsは事前学習データからクエリを改善する
- Authors: Orion Weller and Marc Marone and Nathaniel Weir and Dawn Lawrie and
Daniel Khashabi and Benjamin Van Durme
- Abstract要約: LLM(Large Language Models)は、実データに基づいて事前訓練されているにもかかわらず、幻覚と偽情報を生成する。
本稿では,従来観察されていたテキストに対してLLMを接地応答に誘導する手法を提案する。
基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を計測する新しい評価指標(QUIP-Score)を提案する。
- 参考スコア(独自算出の注目度): 35.53187405759949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) may hallucinate and generate fake information,
despite pre-training on factual data. Inspired by the journalistic device of
"according to sources", we propose according-to prompting: directing LLMs to
ground responses against previously observed text. To quantify this grounding,
we propose a novel evaluation metric (QUIP-Score) that measures the extent to
which model-produced answers are directly found in underlying text corpora. We
illustrate with experiments on Wikipedia that these prompts improve grounding
under our metrics, with the additional benefit of often improving end-task
performance. Furthermore, prompts that ask the model to decrease grounding (or
to ground to other corpora) decrease grounding, indicating the ability of
language models to increase or decrease grounded generations on request.
- Abstract(参考訳): LLM(Large Language Models)は、実データによる事前学習にもかかわらず、幻覚と偽の情報を生成する。
情報提供者」の報道装置に触発されて,先行したテキストに対してllmを地上応答に指示することを提案する。
この基礎となるテキストコーパスにモデル生成回答が直接現れる範囲を測定するための新しい評価指標(QUIP-Score)を提案する。
われわれはウィキペディアで実験を行い、これらのプロンプトが私たちの測定値のグラウンド化を改善し、エンドタスクのパフォーマンスを頻繁に改善する追加の利点を説明した。
さらに、モデルに接地(または他のコーパスに接地)を減少させるように促すプロンプトは、接地を減少させ、要求に応じて接地世代を増加または減少させる言語モデルの能力を示す。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts [20.933548500888595]
対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。
Flesch-Kincaid Reading Easeスコアのような、テキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。
本稿では,テキストの難易度向上のための新しいPromptベースのメトリクスセットを紹介し,評価する。
論文 参考訳(メタデータ) (2024-05-15T16:22:16Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。