Fugu-MT 論文翻訳(概要): Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

論文の概要: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

arxiv url: http://arxiv.org/abs/2404.03862v2
Date: Wed, 21 Aug 2024 15:23:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 22:35:13.174808
Title: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data
Title（参考訳）: 設計による検証 - 事前学習データから記述する言語モデルの調整
Authors: Jingyu Zhang, Marc Marone, Tianjian Li, Benjamin Van Durme, Daniel Khashabi,
Abstract要約: 我々は、事前学習データにおいて、信頼された情報源から動詞句を引用するモデルを開発する。実験の結果,Quote-Tuningは高品質な事前学習文書からの動詞句の引用を55%から130%増加させることがわかった。
参考スコア（独自算出の注目度）: 48.409306245463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To trust the fluent generations of large language models (LLMs), humans must be able to verify their correctness against trusted, external sources. Recent efforts, such as providing citations via retrieved documents or post-hoc provenance, enhance verifiability but still provide no guarantees on their correctness. To address these limitations, we tackle the verifiability goal with a different philosophy: trivializing the verification process by developing models that quote verbatim statements from trusted sources in pre-training data. We propose Quote-Tuning, and demonstrate it is feasible to align LLMs to provide quoted statements from data memorized during pre-training. The core of Quote-Tuning is a fast membership inference function (Marone and Van Durme, 2023) that efficiently verifies text against a trusted corpus. We leverage this tool to design a reward function to quantify quotes in model responses, which is then used to create a dataset for preference learning. Experimental results show that Quote-Tuning significantly increases verbatim quotes from high-quality pre-training documents by 55% to 130% relative to un-tuned models while maintaining response quality. Quote-Tuning also generalizes quoting to out-of-domain data, is applicable in different tasks, and provides additional benefits to truthfulness. Our method not only serves as a hassle-free method to increase quoting but also opens up avenues for improving LLM trustworthiness through better verifiability.
Abstract（参考訳）: 大規模言語モデル(LLM)の流動的な世代を信頼するには、人間は信頼された外部ソースに対して正当性を検証できなければならない。検索した文書やポストホックの証明を通じて引用を提供するといった最近の取り組みは、信頼性を高めつつも、その正確性に関する保証は提供していない。これらの制約に対処するために、我々は検証可能性の目標を異なる哲学で取り組んだ: 事前学習データにおいて、信頼された情報源から動詞を引用するモデルを開発することにより、検証プロセスの自明化である。我々はQuote-Tuningを提案し、LLMを調整して事前学習中に記憶されたデータから引用文を提供することが可能であることを実証する。 Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論関数(Marone and Van Durme, 2023)である。このツールを利用して報酬関数を設計し、モデル応答の引用量を定量化し、好みの学習のためのデータセットを作成する。実験結果から,Quote-Tuningは,応答品質を維持しつつ,非チューニングモデルと比較して,高品質な事前学習文書からの動詞句を55%から130%増加させることがわかった。 Quote-Tuningはまた、ドメイン外データの引用を一般化し、異なるタスクに適用でき、真理性にさらなる利益をもたらす。提案手法は, 引用量を増やすためだけでなく, 信頼性を向上し, 信頼性を向上させるための道を開いた。

関連論文リスト

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [53.17363502535395]
信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。現在のシステムは、外部レトリバーを推論時にクエリすることで、引用を挿入する。本稿では,合成QAペアを継続的に事前訓練するActive Indexingを提案する。
論文参考訳（メタデータ） (2025-06-21T04:48:05Z)
Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation [27.811765400370838]
本稿では,Long-form Verbalized Confidence (Long-form Verbalized Confidence) を提案する。具体的には、強化学習(RL)を用いてLLMを訓練し、各生成された文に数値信頼度スコアを付加する。実験の結果,RL学習モデルによりキャリブレーションの精度が向上し,領域全体にわたって強固に一般化できることがわかった。
論文参考訳（メタデータ） (2025-05-29T18:05:20Z)
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning [25.37313017360707]
NOVERは強化学習フレームワークであり、外部検証を必要とせず、標準的な教師付き微調整データのみを必要とする。 NOVERは、幅広いテキスト・テキスト・タスクにわたるインセンティブトレーニングを可能にし、DeepSeek R1 671Bのような大規模な推論モデルから抽出した同じサイズのモデルを7.7%向上させる。
論文参考訳（メタデータ） (2025-05-21T21:12:35Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Learning Fine-Grained Grounded Citations for Attributed Large Language Models [44.79328335487421]
Frontは、大きな言語モデル(LLM)でFront-Grained Grounded Citationsを生成するためのトレーニングフレームワークである。 ALCEベンチマークの実験では、FRONTが優れた接地応答と高い支持的な励起を生成できることを示した。
論文参考訳（メタデータ） (2024-08-08T16:28:22Z)
Learning to Generate Answers with Citations via Factual Consistency Models [28.716998866121923]
大型言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。本稿では,事実整合性モデル(FCM)を利用した弱教師付き微調整法を提案する。集中学習は目的に統合され、ファインチューニングプロセスが現実の単位トークンを強調するように指示される。
論文参考訳（メタデータ） (2024-06-19T00:40:19Z)
Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文参考訳（メタデータ） (2024-06-10T09:32:37Z)
More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文参考訳（メタデータ） (2024-04-29T17:00:53Z)
Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:36:12Z)
Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
固有のソースの引用は透明性、解釈可能性、検証可能性を高めることができる。我々のトレーニングレシピは、モデルの難易度に大きな影響を与えることなく、事前学習データへの忠実な帰属を可能にする。
論文参考訳（メタデータ） (2024-04-01T09:39:38Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
Trusted Source Alignment in Large Language Models [30.14375102262399]
本稿では,ファクトチェック記事のコーパスに基づくTSA評価データセットであるFactCheckQAを提案する。モデルサイズを拡大するにつれて、FactCheckQAのモデル性能は、信頼性のあるソースとの整合性において、ほぼランダムから最大80%のバランスの取れた精度に向上する。
論文参考訳（メタデータ） (2023-11-12T00:25:25Z)
Unsupervised Pretraining for Fact Verification by Language Model Distillation [4.504050940874427]
SFAVEL (Self-supervised Fact Verification via Language Model Distillation) は,教師なし事前学習フレームワークである。アノテーションを必要とせずに、自己管理機能を高品質なクレーム-ファクトアライメントに分解する。これは、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しい対照的な損失関数によって実現されている。
論文参考訳（メタデータ） (2023-09-28T15:53:44Z)
Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。音声テキストと関連するニュース記事の収集実験を行う。
論文参考訳（メタデータ） (2020-05-17T17:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。