論文の概要: AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference
- arxiv url: http://arxiv.org/abs/2410.00409v1
- Date: Tue, 1 Oct 2024 05:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:46:46.178643
- Title: AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference
- Title(参考訳): AlignSum: 人間の要約選好に合わせたデータピラミッド階層的微調整
- Authors: Yang Han, Yiming Wang, Rui Wang, Lu Chen, Kai Yu,
- Abstract要約: そこで本研究では,人間の要約選好アライメントフレームワークAlignSumについて紹介する。
AlignSumでは、BART-LargeのようなPLMが自動評価と人的評価の両方で175B GPT-3を上回っている。
- 参考スコア(独自算出の注目度): 22.13596750775719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text summarization tasks commonly employ Pre-trained Language Models (PLMs) to fit diverse standard datasets. While these PLMs excel in automatic evaluations, they frequently underperform in human evaluations, indicating a deviation between their generated summaries and human summarization preferences. This discrepancy is likely due to the low quality of fine-tuning datasets and the limited availability of high-quality human-annotated data that reflect true human preference. To address this challenge, we introduce a novel human summarization preference alignment framework AlignSum. This framework consists of three parts: Firstly, we construct a Data Pymarid with extractive, abstractive, and human-annotated summary data. Secondly, we conduct the Gaussian Resampling to remove summaries with extreme lengths. Finally, we implement the two-stage hierarchical fine-tuning with Data Pymarid after Gaussian Resampling. We apply AlignSum to PLMs on the human-annotated CNN/DailyMail and BBC XSum datasets. Experiments show that with AlignSum, PLMs like BART-Large surpass 175B GPT-3 in both automatic and human evaluations. This demonstrates that AlignSum significantly enhances the alignment of language models with human summarization preferences.
- Abstract(参考訳): テキスト要約タスクは、様々な標準データセットに適合するために、通常PLM(Pre-trained Language Models)を使用する。
これらのPLMは自動評価において優れるが、人間の評価では性能が劣ることが多く、生成された要約と人間の要約の好みのずれが示される。
この違いは、微調整データセットの品質の低さと、真の人間の好みを反映した高品質な人間の注釈付きデータの可用性の制限による可能性が高い。
この課題に対処するために、新しい人間の要約選好アライメントフレームワークAlignSumを紹介する。
このフレームワークは3つの部分から構成される: まず、抽出的、抽象的、人間による注釈付き要約データからなるData Pymaridを構築する。
第二に、極端の長さの要約を除去するためにガウス再サンプリングを行う。
最後に、ガウス再サンプリング後にData Pymaridを用いて、2段階の階層的な微調整を実装した。
人間の注釈付きCNN/DailyMailとBBC XSumのデータセットにAlignSumをPLMに適用する。
実験によると、AlignSumでは、BART-LargeのようなPLMが自動評価と人的評価の両方で175B GPT-3を上回っている。
このことは、AlignSumが人間の要約の好みと言語モデルのアライメントを著しく向上させることを示している。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Automated Filtering of Human Feedback Data for Aligning Text-to-Image Diffusion Models [36.84880190385986]
人間のフィードバックによる微調整テキスト・画像拡散モデルは、モデル行動と人間の意図を整合させる効果的な方法である。
しかしながら、このアライメントプロセスは、人間のフィードバックデータセットにある大きなサイズとノイズのために、しばしば緩やかな収束に悩まされる。
本研究では,人間のフィードバックデータセットを用いた拡散モデルの微調整性向上を目的とした,新しい自動データフィルタリングアルゴリズムFiFAを提案する。
論文 参考訳(メタデータ) (2024-10-14T05:18:07Z) - Model-based Preference Optimization in Abstractive Summarization without Human Feedback [5.438770095369458]
人間のフィードバックを伴わずに要約能力を向上させるために,モデルベース推論最適化(MPO)を導入している。
標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-27T10:35:45Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Abstractive Summarization for Low Resource Data using Domain Transfer
and Data Synthesis [1.148539813252112]
本稿では,近年の抽象的な要約手法の性能向上のために,ドメイン転送とデータ合成について検討する。
新聞データに基づいて訓練された美術モデルのチューニング状態は、学生の反射データの性能を高める可能性があることを示す。
トレーニングに組み込むとROUGEスコアがさらに増加するテンプレートベースの新しいデータを合成するモデルを提案する。
論文 参考訳(メタデータ) (2020-02-09T17:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。