論文の概要: MOA: Multi-Objective Alignment for Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2512.09756v1
- Date: Wed, 10 Dec 2025 15:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.576101
- Title: MOA: Multi-Objective Alignment for Role-Playing Agents
- Title(参考訳): MOA:ロールプレイングエージェントのための多目的アライメント
- Authors: Chonghua Liao, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li,
- Abstract要約: 汎用RPAのための多次元きめ細かなルーリック最適化を実現するための強化学習フレームワークMOAを提案する。
モデルアウトプットの多様性と品質の問題に対処するために、我々は、非政治ガイダンスによる思考強化されたロールアウトも導入している。
このことは、ロール知識、ペルソナスタイル、多様なシナリオ、複雑なマルチターン会話の要求を同時に満たすことができるRPAの構築におけるMOAの大きな可能性を示しています。
- 参考スコア(独自算出の注目度): 68.67837397211903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-playing agents (RPAs) must simultaneously master many conflicting skills -- following multi-turn instructions, exhibiting domain knowledge, and adopting a consistent linguistic style. Existing work either relies on supervised fine-tuning (SFT) that over-fits surface cues and yields low diversity, or applies reinforcement learning (RL) that fails to learn multiple dimensions for comprehensive RPA optimization. We present MOA (Multi-Objective Alignment), a reinforcement-learning framework that enables multi-dimensional, fine-grained rubric optimization for general RPAs. MOA introduces a novel multi-objective optimization strategy that trains simultaneously on multiple fine-grained rubrics to boost optimization performance. Besides, to address the issues of model output diversity and quality, we have also employed thought-augmented rollout with off-policy guidance. Extensive experiments on challenging benchmarks such as PersonaGym and RoleMRC show that MOA enables an 8B model to match or even outperform strong baselines such as GPT-4o and Claude across numerous dimensions. This demonstrates the great potential of MOA in building RPAs that can simultaneously meet the demands of role knowledge, persona style, diverse scenarios, and complex multi-turn conversations.
- Abstract(参考訳): ロールプレイングエージェント(RPAs)は、マルチターン命令に従って、ドメイン知識を示し、一貫性のある言語スタイルを採用する、多くの競合するスキルを同時に習得する必要があります。
既存の作業は、サーフェスキューに過度に適合し、低多様性をもたらす教師付き微調整(SFT)に依存するか、あるいは総合的なRPA最適化のために複数の次元を学習できない強化学習(RL)を適用している。
汎用RPAのための多次元きめ細かなルーリック最適化を実現する強化学習フレームワークMOA(Multi-Objective Alignment)を提案する。
MOAは、最適化性能を向上させるために、複数のきめ細かいルーリックを同時に訓練する、新しい多目的最適化戦略を導入した。
また, モデル出力の多様性と品質の問題に対処するため, 外部指導による思考強化ロールアウトも実施している。
PersonaGym や RoleMRC のような挑戦的なベンチマークに関する大規模な実験により、MOA は8B モデルが GPT-4o や Claude といった強力なベースラインと多くの次元で一致したり、性能を上回ったりできることを示した。
このことは、ロール知識、ペルソナスタイル、多様なシナリオ、複雑なマルチターン会話の要求を同時に満たすことができるRPAの構築におけるMOAの大きな可能性を示しています。
関連論文リスト
- MoRE: A Mixture of Low-Rank Experts for Adaptive Multi-Task Learning [18.0412262027514]
マルチタスクのためのMixture of Low-Rank Experts (MoRE)を提案する。
各タスクに個別のLoRAを使う代わりに、異なるタスクでLoRAモジュールの異なるランクを調整します。
また、タスクごとに適切な専門家を選択するために、新しい適応的なランクセレクタを設計する。
論文 参考訳(メタデータ) (2025-05-28T12:32:09Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Demonstration Guided Multi-Objective Reinforcement Learning [2.9845592719739127]
実証誘導多目的強化学習(DG-MORL)を導入する。
この新しいアプローチでは、事前のデモンストレーションを利用し、コーナーウェイトサポートを通じてユーザの好みに合わせて調整し、自己進化メカニズムを取り入れて、準最適デモを洗練させる。
我々の実証研究は、DG-MORLが既存のMORLアルゴリズムよりも優れていることを示し、その堅牢性と有効性を確立した。
論文 参考訳(メタデータ) (2024-04-05T10:19:04Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Multi-objective Pointer Network for Combinatorial Optimization [10.286195356515355]
多目的最適化問題(MOCOP)は、様々な実応用に存在している。
最適化問題に対する近似最適解を生成するために, 深部強化学習法 (DRL) が提案されている。
本研究では,MOPN(Multi-objective Pointer Network)と呼ばれる単一モデル深層強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-25T14:02:34Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。