論文の概要: Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction
- arxiv url: http://arxiv.org/abs/2511.17879v1
- Date: Sat, 22 Nov 2025 02:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.490263
- Title: Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction
- Title(参考訳): ライブ人間とAI音楽のインタラクションにおけるリワードハックの抑制
- Authors: Yusong Wu, Stephen Brade, Teng Ma, Tia-Jane Fowler, Enning Yang, Berker Banar, Aaron Courville, Natasha Jaques, Cheng-Zhi Anna Huang,
- Abstract要約: 強化学習後、コヒーレンスに基づく報酬を利用して出力の多様性を低下させる。
この崩壊は、音楽的創造性は動的変動と相互応答性に依存するライブジャミングにおいて特に有害である。
メロディと和音の伴奏のためのRLポストトレーニングにおける報酬ハッキングを軽減するために,ポリシー生成トラジェクトリに対する新たな逆行訓練手法を提案する。
- 参考スコア(独自算出の注目度): 14.099864893966377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most applications of generative AI involve a sequential interaction in which a person inputs a prompt and waits for a response, and where reaction time and adaptivity are not important factors. In contrast, live jamming is a collaborative interaction that requires real-time coordination and adaptation without access to the other player's future moves, while preserving diversity to sustain a creative flow. Reinforcement learning post-training enables effective adaptation through on-policy interaction, yet it often reduces output diversity by exploiting coherence-based rewards. This collapse, known as ``reward hacking'', affects many RL post-training pipelines, but is especially harmful in live jamming, where musical creativity relies on dynamic variation and mutual responsiveness. In this paper, we propose a novel adversarial training method on policy-generated trajectories to mitigate reward hacking in RL post-training for melody-to-chord accompaniment. A co-evolving discriminator separates policy trajectories from the data distribution, while the policy maximizes the discriminator output in addition to coherence rewards to prevent collapse to trivial outputs. We evaluate accompaniment quality and output diversity in simulation with both fixed test melodies and learned melody agents, and we conduct a user study with the model deployed in a real-time interactive system with expert musicians. Quantitative evaluation and user feedback demonstrate improved output diversity, harmonic coherence, adaptation speed and user agency. Our results demonstrate a simple yet effective method to mitigate reward hacking in RL post-training of generative sequence models.
- Abstract(参考訳): 生成AIのほとんどの応用は、人がプロンプトを入力して応答を待つシーケンシャルな相互作用を含み、反応時間と適応性が重要でない。
対照的に、ライブジャミングは、創造的な流れを維持するために多様性を保ちながら、相手の将来の動きにアクセスすることなく、リアルタイムの調整と適応を必要とする協調的な相互作用である。
強化学習のポストトレーニングは、政治的相互作用を通じて効果的な適応を可能にするが、コヒーレンスに基づく報酬を利用して出力の多様性を低下させることが多い。
この崩壊は'reward hacking'として知られ、多くのRLポストトレーニングパイプラインに影響を与えるが、音楽の創造性は動的変動と相互応答性に依存するライブジャミングでは特に有害である。
本稿では, メロディ・和声伴奏のRLポストトレーニングにおいて, 報酬ハッキングを緩和するために, ポリシー生成トラジェクトリに対する新たな逆行訓練法を提案する。
共進化判別器は、データ配信からポリシートラジェクトリを分離し、ポリシーは、コヒーレンス報酬に加えて、識別器出力を最大化して、自明な出力の崩壊を防止する。
固定テストメロディと学習メロディエージェントを併用したシミュレーションにおいて,伴奏品質と出力の多様性を評価し,エキスパートミュージシャンとのリアルタイム対話システムに配置したモデルを用いてユーザスタディを行う。
定量的評価とユーザフィードバックにより、出力の多様性、調和コヒーレンス、適応速度、ユーザエージェンシーが改善された。
生成配列モデルのRL後トレーニングにおいて,報酬ハックを軽減し,簡便かつ効果的な方法を示す。
関連論文リスト
- UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Reinforcement Learning Agent for a 2D Shooter Game [0.0]
複雑なゲーム環境における強化学習エージェントは、しばしばスパース報酬、トレーニング不安定性、サンプル効率の低下に悩まされる。
本稿では,オフライン模倣学習とオンライン強化学習を組み合わせた2次元シューティングゲームエージェントのハイブリッドトレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-09-18T15:07:41Z) - Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning [3.513501558121131]
リアルタイムスカラーフィードバックを優先データに変換するフレームワークであるPref-GUIDEを提案する。
Pref-GUIDE 個人は、短いウィンドウ内でのエージェントの挙動を比較することで時間的不整合を緩和する。
Pref-GUIDE Votingは、ユーザの集団間で報酬モデルを集約し、コンセンサス優先を形成することにより、ロバスト性を高める。
論文 参考訳(メタデータ) (2025-08-10T00:18:44Z) - Improving Human-AI Coordination through Online Adversarial Training and Generative Models [32.057874335805685]
新たな人間に一般化するには、人間の行動の多様性を捉えたデータに関する訓練が必要である。
敵対的トレーニングは、動的データ生成を可能にする有望な方法であり、エージェントが堅牢であることを保証する。
本稿では、事前学習した生成モデルを用いて、有効な協調エージェント政策と敵の訓練をシミュレートし、後悔を最大化する新しい戦略を提案する。
論文 参考訳(メタデータ) (2025-04-21T21:53:00Z) - Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents [2.1301560294088318]
自己関心の個人間の協力は、自然界で広く見られる現象であるが、人工的な知的エージェント間の相互作用においては、いまだ解明されていない。
そこで,本研究では,リターンに対する相手の行動の影響を再現するために,本質的に動機づけられた強化学習エージェントであるReciprocatorを紹介する。
本研究では,同時学習において,時間的に拡張された社会的ジレンマにおける協調を促進するために,共用者が利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T06:07:27Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。