論文の概要: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data
- arxiv url: http://arxiv.org/abs/2404.03862v2
- Date: Wed, 21 Aug 2024 15:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:35:13.174808
- Title: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data
- Title(参考訳): 設計による検証 - 事前学習データから記述する言語モデルの調整
- Authors: Jingyu Zhang, Marc Marone, Tianjian Li, Benjamin Van Durme, Daniel Khashabi,
- Abstract要約: 我々は、事前学習データにおいて、信頼された情報源から動詞句を引用するモデルを開発する。
実験の結果,Quote-Tuningは高品質な事前学習文書からの動詞句の引用を55%から130%増加させることがわかった。
- 参考スコア(独自算出の注目度): 48.409306245463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To trust the fluent generations of large language models (LLMs), humans must be able to verify their correctness against trusted, external sources. Recent efforts, such as providing citations via retrieved documents or post-hoc provenance, enhance verifiability but still provide no guarantees on their correctness. To address these limitations, we tackle the verifiability goal with a different philosophy: trivializing the verification process by developing models that quote verbatim statements from trusted sources in pre-training data. We propose Quote-Tuning, and demonstrate it is feasible to align LLMs to provide quoted statements from data memorized during pre-training. The core of Quote-Tuning is a fast membership inference function (Marone and Van Durme, 2023) that efficiently verifies text against a trusted corpus. We leverage this tool to design a reward function to quantify quotes in model responses, which is then used to create a dataset for preference learning. Experimental results show that Quote-Tuning significantly increases verbatim quotes from high-quality pre-training documents by 55% to 130% relative to un-tuned models while maintaining response quality. Quote-Tuning also generalizes quoting to out-of-domain data, is applicable in different tasks, and provides additional benefits to truthfulness. Our method not only serves as a hassle-free method to increase quoting but also opens up avenues for improving LLM trustworthiness through better verifiability.
- Abstract(参考訳): 大規模言語モデル(LLM)の流動的な世代を信頼するには、人間は信頼された外部ソースに対して正当性を検証できなければならない。
検索した文書やポストホックの証明を通じて引用を提供するといった最近の取り組みは、信頼性を高めつつも、その正確性に関する保証は提供していない。
これらの制約に対処するために、我々は検証可能性の目標を異なる哲学で取り組んだ: 事前学習データにおいて、信頼された情報源から動詞を引用するモデルを開発することにより、検証プロセスの自明化である。
我々はQuote-Tuningを提案し、LLMを調整して事前学習中に記憶されたデータから引用文を提供することが可能であることを実証する。
Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論関数(Marone and Van Durme, 2023)である。
このツールを利用して報酬関数を設計し、モデル応答の引用量を定量化し、好みの学習のためのデータセットを作成する。
実験結果から,Quote-Tuningは,応答品質を維持しつつ,非チューニングモデルと比較して,高品質な事前学習文書からの動詞句を55%から130%増加させることがわかった。
Quote-Tuningはまた、ドメイン外データの引用を一般化し、異なるタスクに適用でき、真理性にさらなる利益をもたらす。
提案手法は, 引用量を増やすためだけでなく, 信頼性を向上し, 信頼性を向上させるための道を開いた。
関連論文リスト
- Learning Fine-Grained Grounded Citations for Attributed Large Language Models [44.79328335487421]
Frontは、大きな言語モデル(LLM)でFront-Grained Grounded Citationsを生成するためのトレーニングフレームワークである。
ALCEベンチマークの実験では、FRONTが優れた接地応答と高い支持的な励起を生成できることを示した。
論文 参考訳(メタデータ) (2024-08-08T16:28:22Z) - Learning to Generate Answers with Citations via Factual Consistency Models [28.716998866121923]
大型言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。
本稿では,事実整合性モデル(FCM)を利用した弱教師付き微調整法を提案する。
集中学習は目的に統合され、ファインチューニングプロセスが現実の単位トークンを強調するように指示される。
論文 参考訳(メタデータ) (2024-06-19T00:40:19Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
固有のソースの引用は透明性、解釈可能性、検証可能性を高めることができる。
我々のトレーニングレシピは、モデルの難易度に大きな影響を与えることなく、事前学習データへの忠実な帰属を可能にする。
論文 参考訳(メタデータ) (2024-04-01T09:39:38Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Unsupervised Pretraining for Fact Verification by Language Model
Distillation [4.504050940874427]
SFAVEL (Self-supervised Fact Verification via Language Model Distillation) は,教師なし事前学習フレームワークである。
アノテーションを必要とせずに、自己管理機能を高品質なクレーム-ファクトアライメントに分解する。
これは、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しい対照的な損失関数によって実現されている。
論文 参考訳(メタデータ) (2023-09-28T15:53:44Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。