論文の概要: Balancing Rewards in Text Summarization: Multi-Objective Reinforcement Learning via HyperVolume Optimization
- arxiv url: http://arxiv.org/abs/2510.19325v1
- Date: Wed, 22 Oct 2025 07:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.319691
- Title: Balancing Rewards in Text Summarization: Multi-Objective Reinforcement Learning via HyperVolume Optimization
- Title(参考訳): テキスト要約におけるバランシング・リワード:HyperVolume Optimizationによる多目的強化学習
- Authors: Junjie Song, Yiwen Liu, Dapeng Li, Yin Sun, Shukun Fu, Siqi Chen, Yuji Cao,
- Abstract要約: RLにおける報酬過程において,グループ間のスコアを動的に調整する新しい最適化手法であるハイパーボリューム最適化(HVO)を導入する。
いくつかの代表的な要約データセットに対する実験結果から,本手法がグループ相対的政策最適化より優れていることが示された。
- 参考スコア(独自算出の注目度): 14.681037993252188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text summarization is a crucial task that requires the simultaneous optimization of multiple objectives, including consistency, coherence, relevance, and fluency, which presents considerable challenges. Although large language models (LLMs) have demonstrated remarkable performance, enhanced by reinforcement learning (RL), few studies have focused on optimizing the multi-objective problem of summarization through RL based on LLMs. In this paper, we introduce hypervolume optimization (HVO), a novel optimization strategy that dynamically adjusts the scores between groups during the reward process in RL by using the hypervolume method. This method guides the model's optimization to progressively approximate the pareto front, thereby generating balanced summaries across multiple objectives. Experimental results on several representative summarization datasets demonstrate that our method outperforms group relative policy optimization (GRPO) in overall scores and shows more balanced performance across different dimensions. Moreover, a 7B foundation model enhanced by HVO performs comparably to GPT-4 in the summarization task, while maintaining a shorter generation length. Our code is publicly available at https://github.com/ai4business-LiAuto/HVO.git
- Abstract(参考訳): テキストの要約は、一貫性、コヒーレンス、関連性、フラレンシなど、複数の目的を同時に最適化する必要がある重要なタスクである。
大きな言語モデル(LLM)は、強化学習(RL)によって強化された優れた性能を示すが、LLMに基づくRLによる要約の多目的問題を最適化することに焦点を当てた研究はほとんどない。
本稿では,超体積法を用いて,RLの報酬過程においてグループ間のスコアを動的に調整する新しい最適化手法であるハイパーボリューム最適化(HVO)を提案する。
この方法は、モデルの最適化を導くことで、複数の目的にまたがるバランスの取れた要約を生成する。
いくつかの代表的な要約データセットに対する実験結果から,本手法はグループ相対的政策最適化(GRPO)を総合的に上回り,異なる次元でよりバランスの取れた性能を示すことが示された。
さらに、HVOにより強化された7Bファンデーションモデルは、より短い生成長を維持しながら、要約タスクにおいてGPT-4と相容れない。
私たちのコードはhttps://github.com/ai4business-LiAuto/HVO.gitで公開されています。
関連論文リスト
- Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning [6.675088737484839]
本稿では,効率と柔軟性を向上させるために,複数のモデルを個別に微調整するEnsemble Multi-Objective RL (EMORL) フレームワークを提案する。
提案手法は,複数の対象からコンテキスト情報を組み込んで,個々のモデルの隠れた状態を初めて集約する手法である。
PAIR と Psych8k データセットの実験において,EMORL の既存のベースラインに対する利点を示す。
論文 参考訳(メタデータ) (2025-05-05T11:30:46Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning [12.083649916114402]
本研究では,4次元にまたがるバランスの取れた要約を生成するために,多目的強化学習を提案する。
従来のROUGEベースの報酬が参照サマリーに依存しているのとは違って、QAベースの報酬モデルが人間の好みに合わせている。
提案手法は, 代表的な要約データセットのベースラインモデルと比較して, かなりの性能向上を達成した。
論文 参考訳(メタデータ) (2024-06-01T05:15:12Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。