Fugu-MT 論文翻訳(概要): Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

論文の概要: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

arxiv url: http://arxiv.org/abs/2404.03862v3
Date: Thu, 14 Nov 2024 18:27:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.713488
Title: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data
Title（参考訳）: 設計による検証 - 事前学習データから記述する言語モデルの調整
Authors: Jingyu Zhang, Marc Marone, Tianjian Li, Benjamin Van Durme, Daniel Khashabi,
Abstract要約: 事前学習データにおいて,信頼された情報源から動詞句を引用するモデルを構築した。 Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論機能である。実験により、Quote-Tuningは、ベースモデルと比較して高品質なドキュメントからの動詞の引用を最大130%増加させることが示された。
参考スコア（独自算出の注目度）: 48.409306245463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To trust the fluent generations of large language models (LLMs), humans must be able to verify their correctness against trusted, external sources. Recent efforts, such as providing citations via retrieved documents or post-hoc provenance, enhance verifiability but provide no guarantees on their correctness. To address these limitations, we tackle the verifiability goal with a different philosophy: trivializing the verification process by developing models that quote verbatim statements from trusted sources in their pre-training data. We propose Quote-Tuning, which demonstrates the feasibility of aligning models to quote. The core of Quote-Tuning is a fast membership inference function that efficiently verifies text against trusted corpora. We leverage this tool to design a reward function to quantify quotes in model responses, and curate datasets for preference learning. Experiments show that Quote-Tuning significantly increases verbatim quotes from high-quality documents by up to 130% relative to base models while maintaining response quality. Quote-Tuning is applicable in different tasks, generalizes to out-of-domain data and diverse model families, and provides additional benefits to truthfulness. Our method not only serves as a hassle-free method to increase quoting but also opens up avenues for improving LLM trustworthiness through better verifiability.
Abstract（参考訳）: 大規模言語モデル(LLM)の流動的な世代を信頼するには、人間は信頼された外部ソースに対して正当性を検証できなければならない。検索した文書やポストホックの証明を通じて引用を提供するといった最近の取り組みは、妥当性を高めるが、その正確性に関する保証は提供しない。これらの制限に対処するために、我々は検証可能性の目標を異なる哲学で取り組む: 事前学習データの中で信頼された情報源から口頭弁論文を引用するモデルを開発することにより、検証プロセスを自明にする。本稿では,提案するQuote-Tuningを提案する。 Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論機能である。このツールを利用して報酬関数を設計し、モデル応答における引用量を定量化し、好みの学習のためにデータセットをキュレートする。実験により、Quote-Tuningは、応答品質を維持しながら、ベースモデルと比較して、高品質なドキュメントからの冗長な引用を最大130%増加させることが示された。 Quote-Tuningは異なるタスクに適用でき、ドメイン外のデータと多様なモデルファミリに一般化し、真理性にさらなるメリットを提供する。提案手法は, 引用量を増やすためのハードルフリーな手法として機能するだけでなく, 信頼性向上のための道を開いた。

関連論文リスト

Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Learning Fine-Grained Grounded Citations for Attributed Large Language Models [44.79328335487421]
Frontは、大きな言語モデル(LLM)でFront-Grained Grounded Citationsを生成するためのトレーニングフレームワークである。 ALCEベンチマークの実験では、FRONTが優れた接地応答と高い支持的な励起を生成できることを示した。
論文参考訳（メタデータ） (2024-08-08T16:28:22Z)
Learning to Generate Answers with Citations via Factual Consistency Models [28.716998866121923]
大型言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。本稿では,事実整合性モデル(FCM)を利用した弱教師付き微調整法を提案する。集中学習は目的に統合され、ファインチューニングプロセスが現実の単位トークンを強調するように指示される。
論文参考訳（メタデータ） (2024-06-19T00:40:19Z)
Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文参考訳（メタデータ） (2024-06-10T09:32:37Z)
More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文参考訳（メタデータ） (2024-04-29T17:00:53Z)
Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:36:12Z)
Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
固有のソースの引用は透明性、解釈可能性、検証可能性を高めることができる。我々のトレーニングレシピは、モデルの難易度に大きな影響を与えることなく、事前学習データへの忠実な帰属を可能にする。
論文参考訳（メタデータ） (2024-04-01T09:39:38Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
Trusted Source Alignment in Large Language Models [30.14375102262399]
本稿では,ファクトチェック記事のコーパスに基づくTSA評価データセットであるFactCheckQAを提案する。モデルサイズを拡大するにつれて、FactCheckQAのモデル性能は、信頼性のあるソースとの整合性において、ほぼランダムから最大80%のバランスの取れた精度に向上する。
論文参考訳（メタデータ） (2023-11-12T00:25:25Z)
Unsupervised Pretraining for Fact Verification by Language Model Distillation [4.504050940874427]
SFAVEL (Self-supervised Fact Verification via Language Model Distillation) は,教師なし事前学習フレームワークである。アノテーションを必要とせずに、自己管理機能を高品質なクレーム-ファクトアライメントに分解する。これは、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しい対照的な損失関数によって実現されている。
論文参考訳（メタデータ） (2023-09-28T15:53:44Z)
Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。音声テキストと関連するニュース記事の収集実験を行う。
論文参考訳（メタデータ） (2020-05-17T17:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。