論文の概要: Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics
- arxiv url: http://arxiv.org/abs/2605.26840v1
- Date: Tue, 26 May 2026 10:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.894654
- Title: Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics
- Title(参考訳): 複数不完全なメトリクスからの選好学習による要約におけるファクチュアル一貫性の最適化
- Authors: Yuxuan Ye, Raul Santos-Rodriguez, Edwin Simpson,
- Abstract要約: さまざまな弱いメトリクスからスコアを集約することで、要約の事実整合性を改善する自動トレーニングパイプラインを導入します。
提案手法では、スコアを好みにマッピングし、メトリクス間で高い不一致のケースをフィルタリングすることで、複雑な報酬形成を回避している。
実験では、初期エンコーダ・デコーダアーキテクチャから現代の大規模言語モデルまで、モデル間での一貫性のある事実性の向上が示されている。
- 参考スコア(独自算出の注目度): 0.9867902290081937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with evaluation metrics as rewards is widely used to enhance specific capabilities of language models. However, for tasks such as factually consistent summarisation, existing metrics remain underdeveloped, limiting their effectiveness as signals for shaping model behaviour.While individual factuality metrics are unreliable, their combination can more effectively capture diverse factual errors. We leverage this insight to introduce an automated training pipeline that improves factual consistency in summaries by aggregating scores from different weak metrics. Our approach avoids the need for complex reward shaping by mapping scores to preferences and filtering out cases with high disagreement between metrics. For each source document, we generate lexically similar summary pairs by varying decoding strategies, enabling the model to learn from factual differences caused by subtle lexical differences. This approach constructs a high-quality preference dataset using only source documents.Experiments demonstrate consistent factuality gains across models, ranging from early encoder-decoder architectures to modern large language models, with smaller models reaching comparable factuality to larger ones.
- Abstract(参考訳): 評価指標を報酬とする強化学習は、言語モデルの特定の能力を高めるために広く用いられている。
しかし、現実的に一貫した要約のようなタスクでは、既存のメトリクスは未発達のままであり、モデル行動を形成するための信号としての有効性を制限している。
この洞察を活用して、さまざまな弱いメトリクスからスコアを集約することで、要約の事実整合性を改善する自動トレーニングパイプラインを導入します。
提案手法では、スコアを好みにマッピングし、メトリクス間で高い不一致のケースをフィルタリングすることで、複雑な報酬形成を回避している。
各ソース文書に対して,異なる復号戦略により語彙的に類似した要約ペアを生成し,微妙な語彙差による実差からモデルを学習できるようにする。
実験では、初期エンコーダ・デコーダアーキテクチャから現代の大規模言語モデルまで、モデル間で一貫した事実性向上を示す。
関連論文リスト
- PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Understanding Factuality in Abstractive Summarization with FRANK: A
Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。
一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。
我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文 参考訳(メタデータ) (2021-04-27T17:28:07Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。