論文の概要: Learning from Self Critique and Refinement for Faithful LLM Summarization
- arxiv url: http://arxiv.org/abs/2512.05387v1
- Date: Fri, 05 Dec 2025 02:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.882074
- Title: Learning from Self Critique and Refinement for Faithful LLM Summarization
- Title(参考訳): 自己批判から学ぶ : 忠実なLLM要約
- Authors: Ting-Yao Hu, Hema Swetha Koppula, Hadi Pouransari, Cem Koc, Oncel Tuzel, Raviteja Vemulapalli,
- Abstract要約: 大言語モデル(LLM)は、要約などの長文生成タスクを行う際に、幻覚に悩まされることが多い。
自己批判と再定義に基づく選好最適化(SCRPO)を提案する。
SCRPOは自己教師型トレーニングフレームワークで、まずLLMの批評と洗練機能を活用することで、好みのデータセットを構築する。
- 参考スコア(独自算出の注目度): 26.593763749112792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) often suffer from hallucinations: output content that is not grounded in the input context, when performing long-form text generation tasks such as summarization. Prior works have shown that hallucinations can be reduced by iteratively critiquing and refining previously generated outputs using either the same model or a more powerful teacher model as the critique. However, these approaches either require additional test-time compute or assume access to more powerful teacher models, making them costly and less practical. In this work, we propose Self Critique and Refinement-based Preference Optimization (SCRPO), which is a self-supervised training framework that first constructs a preference dataset by leveraging the LLM's own critique and refinement capabilities, and then applies preference learning to improve the same LLM for faithful summarization. Experiments on three summarization benchmarks (XSUM CNNDM and SAMSum), demonstrate that our approach outperforms state-of-the-art self-supervised learning methods in terms of faithfulness metrics while either maintaining or improving other metrics that measure the overall quality of the summary. Moreover, compared to test-time refinement, our approach not only improves efficiency but also results in more faithful summaries.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば幻覚に悩まされる: 要約のような長文生成タスクを実行するとき、入力コンテキストに基づかないコンテンツを出力する。
先行研究は、以前生成された出力を、同じモデルまたはより強力な教師モデルを用いて反復的に批評し、精製することにより、幻覚を減少させることができることを示した。
しかし、これらのアプローチでは、テストタイムの計算の追加が必要か、より強力な教師モデルへのアクセスを前提とすることで、コストがかかり実用的ではない。
本研究では、まず、LLMの自己批判と洗練能力を活用して、優先データセットを構築する自己教師型トレーニングフレームワークである自己批判と再定義に基づく選好最適化(SCRPO)を提案し、続いて、同じLLMを忠実な要約のために優先学習を適用して改善する。
3つの要約ベンチマーク(XSUM CNNDM と SAMSum)の実験により、我々のアプローチは、その要約の全体的な品質を計測する他の指標を維持または改善しながら、忠実度指標の観点から最先端の自己教師付き学習手法より優れていることを示した。
さらに,テスト時間の改良に比べて,本手法は効率を向上するだけでなく,より忠実な要約をもたらす。
関連論文リスト
- Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Advancing Large Language Model Attribution through Self-Improving [32.77250400438304]
大規模言語モデル(LLM)の帰属能力向上のためのフレームワークSTARTを提案する。
STARTは、サンプリングされた応答から構築されたきめ細かい選好監視信号を反復的に利用し、堅牢で包括的で帰属可能な生成を促進する。
ロングフォームQAとマルチステップ推論をカバーする3つのオープンドメイン質問回答データセットの実験は、平均25.13%のパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-10-17T07:55:33Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。