論文の概要: Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward
- arxiv url: http://arxiv.org/abs/2606.06227v1
- Date: Thu, 04 Jun 2026 14:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.859634
- Title: Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward
- Title(参考訳): ドラッグリダクション(ドラッグリダクション)と報酬ハック(報酬ハック) : 報酬を得るマルチエージェント強化学習の繰り返し
- Authors: Giorgio Maria Cavallazzi, Miguel Pérez-Cuadrado, Alfredo Pinelli,
- Abstract要約: 強化学習エージェントは、設計者が意図した結果から逸脱できる報酬を最大化する。
大量保存プロジェクションはエージェントの出力を結合し、ポリシー勾配に必要なエージェント単位のクレジットを消去する。
メモリレスポリシでは、動作の遅いニアウォールサイクルを解決できません。
2つの退化制御器は、全散量の増加とともに大きなドラッグ低減を実現しているため、報告された図は、より無駄な流れを隠蔽することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A reinforcement-learning agent maximises its reward, which can diverge from the outcome its designer intended. In physical control the reward rarely closes that gap, and drag reduction in wall turbulence makes it concrete. A mass-conservation projection couples agents' outputs and erases the per-agent credit the policy gradient needs; a memoryless policy cannot resolve the slow near-wall cycle it acts on; and a pressure-gradient reward pays for nominal drag reduction by pumping power through the wall. Two degenerate controllers achieve large drag reductions while total dissipation rises, so the reported figure can mask a more wasteful flow. We trace each fault to its cause and fix it: a differentiable projection that restores credit, a recurrent policy with a widened sensing stencil, and a reward scored on the true wall power. The corrected controller acts on the flow within a closed energy budget, earning a conservative $17\%$ under honest accounting.
- Abstract(参考訳): 強化学習エージェントは、設計者が意図した結果から逸脱できる報酬を最大化する。
物理的制御では、報酬がそのギャップを閉じることはめったになく、壁の乱流のドラッグリダクションによって具体化される。
大量保存プロジェクションはエージェントの出力を結合し、ポリシー勾配が要求するエージェント単位のクレジットを消去する。メモリレスポリシーは、その作用する遅いニアウォールサイクルを解決できない。
2つの退化制御器は、全散量の増加とともに大きなドラッグ低減を実現しているため、報告された図は、より無駄な流れを隠蔽することができる。
我々は、それぞれの欠点をその原因まで追跡し、それを修正する:信用を回復する差別化可能なプロジェクション、広範に検知されたステンシルによる繰り返しポリシー、そして真の壁の力で得られる報酬。
補正されたコントローラは、閉じたエネルギー予算内のフローに作用し、誠実な会計の下で保守的な17\%の収入を得る。
関連論文リスト
- Behavior-Consistent Deep Reinforcement Learning [33.58105564355424]
強化学習(Reinforcement Learning, RL)は、トレーニング実行中に高いばらつきを示し、信頼性の低いパフォーマンスをもたらす。
本研究では,行動整合性RLの問題を定式化することで,横断的政策分岐の課題に対処する。
QED(Q$-value expectile Disagreement)は,クロスラン不一致のための単一実行プロキシとして二重批判不一致を用いた状態依存型温度スケジュールである。
論文 参考訳(メタデータ) (2026-05-20T14:08:33Z) - Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Agent-Temporal Credit Assignment for Optimal Policy Preservation in Sparse Multi-Agent Reinforcement Learning [14.003793644193605]
マルチエージェント環境では、エージェントはスパースや遅れたグローバル報酬のために最適なポリシーを学ぶのに苦労することが多い。
本稿では,エージェント・テンポラル・アジェント・リワード再分配(TAR$2$)を導入し,エージェント・テンポラル・クレジット割り当て問題に対処する新しいアプローチを提案する。
TAR$2$は、粗末なグローバル報酬をタイムステップ固有の報酬に分解し、エージェント固有の報酬を計算します。
論文 参考訳(メタデータ) (2024-12-19T12:05:13Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Difference Rewards Policy Gradients [17.644110838053134]
本稿では,分散化政策の学習を可能にするために,差分報酬とポリシを組み合わせた新しいアルゴリズムを提案する。
報酬関数を直接区別することで、Dr.ReinforceはQ-関数の学習に伴う困難を避けることができる。
差分報酬を推定するために用いられる追加報酬ネットワークを学習するDr.Reinforceのバージョンの有効性を示す。
論文 参考訳(メタデータ) (2020-12-21T11:23:17Z) - Reward Tweaking: Maximizing the Total Reward While Planning for Short
Horizons [66.43848057122311]
Reward tweakingは、元の有限水平全報酬タスクに対して最適な振る舞いを誘導する代理報酬関数を学習する。
報酬の調整は、短い地平線を計画しているにもかかわらず、エージェントがより長い水平方向のリターンに導くことを示す。
論文 参考訳(メタデータ) (2020-02-09T09:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。