論文の概要: Diversity Augmentation of Dynamic User Preference Data for Boosting Personalized Text Summarizers
- arxiv url: http://arxiv.org/abs/2510.10082v1
- Date: Sat, 11 Oct 2025 07:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.772599
- Title: Diversity Augmentation of Dynamic User Preference Data for Boosting Personalized Text Summarizers
- Title(参考訳): 個人化テキスト要約器の強化のための動的ユーザ嗜好データの多様性向上
- Authors: Parthiv Chatterjee, Shivam Sonawane, Amey Hengle, Aditya Tanna, Sourish Dasgupta, Tanmoy Chakraborty,
- Abstract要約: $mathrmPerAugy$は、新しいクロストラジェクトリシャッフルと要約コンテンツ摂動技術である。
個人化された要約フレームワークで一般的に使用される4つの最先端ベースライン(SOTA)ユーザエンコーダの精度を大幅に向上させることを示す。
聴覚による拡張データセットにおける誘導的多様性の役割のポストホック分析として,3つのデータセットの多様性指標を紹介した。
- 参考スコア(独自算出の注目度): 16.572159435616456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document summarization enables efficient extraction of user-relevant content but is inherently shaped by individual subjectivity, making it challenging to identify subjective salient information in multifaceted documents. This complexity underscores the necessity for personalized summarization. However, training models for personalized summarization has so far been challenging, particularly because diverse training data containing both user preference history (i.e., click-skip trajectory) and expected (gold-reference) summaries are scarce. The MS/CAS PENS dataset is a valuable resource but includes only preference history without target summaries, preventing end-to-end supervised learning, and its limited topic-transition diversity further restricts generalization. To address this, we propose $\mathrm{PerAugy}$, a novel cross-trajectory shuffling and summary-content perturbation based data augmentation technique that significantly boosts the accuracy of four state-of-the-art baseline (SOTA) user-encoders commonly used in personalized summarization frameworks (best result: $\text{0.132}$$\uparrow$ w.r.t AUC). We select two such SOTA summarizer frameworks as baselines and observe that when augmented with their corresponding improved user-encoders, they consistently show an increase in personalization (avg. boost: $\text{61.2\%}\uparrow$ w.r.t. PSE-SU4 metric). As a post-hoc analysis of the role of induced diversity in the augmented dataset by \peraugy, we introduce three dataset diversity metrics -- $\mathrm{TP}$, $\mathrm{RTC}$, and \degreed\ to quantify the induced diversity. We find that $\mathrm{TP}$ and $\mathrm{DegreeD}$ strongly correlate with user-encoder performance on the PerAugy-generated dataset across all accuracy metrics, indicating that increased dataset diversity is a key factor driving performance gains.
- Abstract(参考訳): 文書要約は、ユーザ関連コンテンツの効率的な抽出を可能にするが、個々の主観性によって本質的に形づくられるため、多面的文書において主観的有能な情報を識別することは困難である。
この複雑さは、パーソナライズされた要約の必要性を浮き彫りにする。
しかし、個人化された要約のためのトレーニングモデルは、特にユーザ好みの履歴(例えば、クリックスキップの軌跡)と期待(ゴールド参照)の要約の両方を含む多様なトレーニングデータが不足しているため、これまで困難であった。
MS/CAS PENSデータセットは貴重なリソースであるが、目的の要約を含まない好み履歴のみを含み、エンドツーエンドの教師あり学習を防ぎ、トピック・トランジションの多様性の制限により一般化がさらに制限される。
これを解決するために,新たなクロストラジェクトリシャッフルおよび要約コンテント摂動に基づくデータ拡張手法である$\mathrm{PerAugy}$を提案し,個人化された要約フレームワークで一般的に使用されるSOTA(State-of-the-art baseline)ユーザエンコーダの精度を著しく向上させる(best result: $\text{0.132}$$\uparrow$ w.r.t AUC)。
このような2つのSOTA要約フレームワークをベースラインとして選択し、改善されたユーザエンコーダで拡張すると、パーソナライズ(avg)が一貫して増加することを観察する。
boost: $\text{61.2\%}\uparrow$ w.r.t.PSE-SU4 metric)。
拡張データセットにおける誘導ダイバーシティの役割を,<peraugy</per>によるポストホック分析として,誘導ダイバーシティを定量化するために,$\mathrm{TP}$,$\mathrm{RTC}$,\degreed\という3つのデータセット多様性指標を導入する。
私たちは、$\mathrm{TP}$と$\mathrm{DegreeD}$が、PerAugyの生成したデータセットのユーザエンコーダのパフォーマンスと、すべての精度メトリクスと強く相関していることを発見し、データセットの多様性の増加がパフォーマンス向上を駆動する重要な要因であることを示した。
関連論文リスト
- Diversity-oriented Data Augmentation with Large Language Models [9.548912625579947]
我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。
具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。
その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-17T11:00:40Z) - TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - $\textbf{Only-IF}$:Revealing the Decisive Effect of Instruction Diversity on Generalization [1.6958018695660049]
トレーニングデータがセマンティックドメインで十分に分散されている場合、textbfonlyが$であることを示す。
例えば$textit$textbfspecialist$$と$textit$textbf generalist$$$モデルの微調整などです。
論文 参考訳(メタデータ) (2024-10-07T03:15:11Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。