Fugu-MT 論文翻訳(概要): Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

論文の概要: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

arxiv url: http://arxiv.org/abs/2404.03862v1
Date: Fri, 5 Apr 2024 02:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 17:16:00.508185
Title: Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data
Title（参考訳）: 設計による検証 - 事前学習データから記述する言語モデルの調整
Authors: Jingyu Zhang, Marc Marone, Tianjian Li, Benjamin Van Durme, Daniel Khashabi,
Abstract要約: 我々は、事前学習データにおいて、信頼された情報源から動詞句を引用するモデルを開発する。 Quote-Tuning は高品質な事前学習文書から引用した LLM 生成率を著しく向上させる。
参考スコア（独自算出の注目度）: 48.409306245463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For humans to trust the fluent generations of large language models (LLMs), they must be able to verify their correctness against trusted, external sources. Recent efforts aim to increase verifiability through citations of retrieved documents or post-hoc provenance. However, such citations are prone to mistakes that further complicate their verifiability. To address these limitations, we tackle the verifiability goal with a different philosophy: we trivialize the verification process by developing models that quote verbatim statements from trusted sources in pre-training data. We propose Quote-Tuning, which demonstrates the feasibility of aligning LLMs to leverage memorized information and quote from pre-training data. Quote-Tuning quantifies quoting against large corpora with efficient membership inference tools, and uses the amount of quotes as an implicit reward signal to construct a synthetic preference dataset for quoting, without any human annotation. Next, the target model is aligned to quote using preference optimization algorithms. Experimental results show that Quote-Tuning significantly increases the percentage of LLM generation quoted verbatim from high-quality pre-training documents by 55% to 130% relative to untuned models while maintaining response quality. Further experiments demonstrate that Quote-Tuning generalizes quoting to out-of-domain data, is applicable in different tasks, and provides additional benefits to truthfulness. Quote-Tuning not only serves as a hassle-free method to increase quoting but also opens up avenues for improving LLM trustworthiness through better verifiability.
Abstract（参考訳）: 人類が大規模言語モデル(LLM)の流動的な世代を信頼するには、信頼された外部ソースに対する正当性を検証する必要がある。近年の取り組みは、検索した文書の引用やポストホックの証明による検証性の向上をめざしている。しかし、そのような引用は、その検証可能性をさらに複雑にする間違いをしがちである。これらの制限に対処するために、我々は異なる哲学を用いて検証可能性のゴールに取り組む:我々は、事前学習データにおいて信頼された情報源から動詞を引用するモデルを開発することによって、検証プロセスを自明にする。本研究では,記憶情報と事前学習データからの引用量を活用するためのLLMの整合性を示すQuote-Tuningを提案する。 Quote-Tuningは、効率的なメンバーシップ推論ツールを備えた大規模なコーパスに対する引用を定量化し、引用の量を暗黙の報酬信号として使用し、人間のアノテーションなしで引用のための合成選好データセットを構築する。次に、選好最適化アルゴリズムを用いて、対象モデルを引用に整列する。実験結果から,Quote-Tuningは,高品質事前学習文書から引用したLCM生成率を,応答品質を維持しつつ,未調整モデルと比較して55%から130%向上することがわかった。さらなる実験では、Quote-Tuningがドメイン外データの引用を一般化し、異なるタスクに適用でき、真理性にさらなる利益をもたらすことが示されている。 Quote-Tuningは、引用量を増やすための面倒な方法として機能するだけでなく、LLMの信頼性を向上させるための道を開く。

関連論文リスト

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [53.17363502535395]
信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。現在のシステムは、外部レトリバーを推論時にクエリすることで、引用を挿入する。本稿では,合成QAペアを継続的に事前訓練するActive Indexingを提案する。
論文参考訳（メタデータ） (2025-06-21T04:48:05Z)
Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation [27.811765400370838]
本稿では,Long-form Verbalized Confidence (Long-form Verbalized Confidence) を提案する。具体的には、強化学習(RL)を用いてLLMを訓練し、各生成された文に数値信頼度スコアを付加する。実験の結果,RL学習モデルによりキャリブレーションの精度が向上し,領域全体にわたって強固に一般化できることがわかった。
論文参考訳（メタデータ） (2025-05-29T18:05:20Z)
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning [25.37313017360707]
NOVERは強化学習フレームワークであり、外部検証を必要とせず、標準的な教師付き微調整データのみを必要とする。 NOVERは、幅広いテキスト・テキスト・タスクにわたるインセンティブトレーニングを可能にし、DeepSeek R1 671Bのような大規模な推論モデルから抽出した同じサイズのモデルを7.7%向上させる。
論文参考訳（メタデータ） (2025-05-21T21:12:35Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Learning Fine-Grained Grounded Citations for Attributed Large Language Models [44.79328335487421]
Frontは、大きな言語モデル(LLM)でFront-Grained Grounded Citationsを生成するためのトレーニングフレームワークである。 ALCEベンチマークの実験では、FRONTが優れた接地応答と高い支持的な励起を生成できることを示した。
論文参考訳（メタデータ） (2024-08-08T16:28:22Z)
Learning to Generate Answers with Citations via Factual Consistency Models [28.716998866121923]
大型言語モデル(LLM)は、ミッションクリティカルな状況においてその信頼性を阻害する。本稿では,事実整合性モデル(FCM)を利用した弱教師付き微調整法を提案する。集中学習は目的に統合され、ファインチューニングプロセスが現実の単位トークンを強調するように指示される。
論文参考訳（メタデータ） (2024-06-19T00:40:19Z)
Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文参考訳（メタデータ） (2024-06-10T09:32:37Z)
More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness [24.843692458375436]
本研究では,5つの信頼性分野において,汎用的嗜好データに整合したモデルがどのように機能するかを検討する。ヒトの嗜好に対するRLHFは、自動的に信頼性を保証せず、しばしば逆効果が観察される。本稿では,RLHF設定に効率的な影響関数に基づくデータ帰属手法を適用し,個々の信頼性ベンチマークに対する微調整データの影響をよりよく理解するために提案する。
論文参考訳（メタデータ） (2024-04-29T17:00:53Z)
Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:36:12Z)
Source-Aware Training Enables Knowledge Attribution in Language Models [81.13048060332775]
固有のソースの引用は透明性、解釈可能性、検証可能性を高めることができる。我々のトレーニングレシピは、モデルの難易度に大きな影響を与えることなく、事前学習データへの忠実な帰属を可能にする。
論文参考訳（メタデータ） (2024-04-01T09:39:38Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
Trusted Source Alignment in Large Language Models [30.14375102262399]
本稿では,ファクトチェック記事のコーパスに基づくTSA評価データセットであるFactCheckQAを提案する。モデルサイズを拡大するにつれて、FactCheckQAのモデル性能は、信頼性のあるソースとの整合性において、ほぼランダムから最大80%のバランスの取れた精度に向上する。
論文参考訳（メタデータ） (2023-11-12T00:25:25Z)
Unsupervised Pretraining for Fact Verification by Language Model Distillation [4.504050940874427]
SFAVEL (Self-supervised Fact Verification via Language Model Distillation) は,教師なし事前学習フレームワークである。アノテーションを必要とせずに、自己管理機能を高品質なクレーム-ファクトアライメントに分解する。これは、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しい対照的な損失関数によって実現されている。
論文参考訳（メタデータ） (2023-09-28T15:53:44Z)
Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。音声テキストと関連するニュース記事の収集実験を行う。
論文参考訳（メタデータ） (2020-05-17T17:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。