論文の概要: OOM-RL: Out-of-Money Reinforcement Learning Market-Driven Alignment for LLM-Based Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2604.11477v1
- Date: Mon, 13 Apr 2026 13:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.572652
- Title: OOM-RL: Out-of-Money Reinforcement Learning Market-Driven Alignment for LLM-Based Multi-Agent Systems
- Title(参考訳): OOM-RL:LLMに基づくマルチエージェントシステムのためのアウト・オブ・モーニー強化学習市場駆動アライメント
- Authors: Kun Liu, Liqun Chen,
- Abstract要約: 目的的アライメントパラダイムとして textbfOut-of-Money Reinforcement Learning (OOM-RL) を導入する。
本研究は,ハイターン・サイコファンティック・ベースラインから,ロバストで流動性に配慮したアーキテクチャへのシステム進化を詳述する。
我々は、厳格な経済罰と主観的人間選好の代用が、実環境における自律的エージェントの整合のための堅牢な方法論を提供すると結論付けている。
- 参考スコア(独自算出の注目度): 4.970665847294818
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The alignment of Multi-Agent Systems (MAS) for autonomous software engineering is constrained by evaluator epistemic uncertainty. Current paradigms, such as Reinforcement Learning from Human Feedback (RLHF) and AI Feedback (RLAIF), frequently induce model sycophancy, while execution-based environments suffer from adversarial "Test Evasion" by unconstrained agents. In this paper, we introduce an objective alignment paradigm: \textbf{Out-of-Money Reinforcement Learning (OOM-RL)}. By deploying agents into the non-stationary, high-friction reality of live financial markets, we utilize critical capital depletion as an un-hackable negative gradient. Our longitudinal 20-month empirical study (July 2024 -- February 2026) chronicles the system's evolution from a high-turnover, sycophantic baseline to a robust, liquidity-aware architecture. We demonstrate that the undeniable ontological consequences of financial loss forced the MAS to abandon overfitted hallucinations in favor of the \textbf{Strict Test-Driven Agentic Workflow (STDAW)}, which enforces a Byzantine-inspired uni-directional state lock (RO-Lock) anchored to a deterministically verified $\geq 95\%$ code coverage constraint matrix. Our results show that while early iterations suffered severe execution decay, the final OOM-RL-aligned system achieved a stable equilibrium with an annualized Sharpe ratio of 2.06 in its mature phase. We conclude that substituting subjective human preference with rigorous economic penalties provides a robust methodology for aligning autonomous agents in high-stakes, real-world environments, laying the groundwork for generalized paradigms where computational billing acts as an objective physical constraint
- Abstract(参考訳): 自律型ソフトウェアエンジニアリングのためのマルチエージェントシステム(MAS)のアライメントは、評価器の認識の不確実性によって制約される。
Reinforcement Learning from Human Feedback (RLHF) や AI Feedback (RLAIF) といった現在のパラダイムは、しばしばモデル梅毒を誘発するが、実行ベースの環境は、制約のないエージェントによる敵の"Test Evasion"に悩まされる。
本稿では,客観的アライメントパラダイムである「モニー強化学習(OOM-RL)」を紹介する。
生の金融市場の非定常的かつ高摩擦的な現実にエージェントを配置することで、臨界資本の枯渇を、ハック不能な負の勾配として活用する。
2024年7月から2026年2月までの20ヶ月にわたる縦断的研究は、このシステムの進化を、ハイターン・サイコファンティック・ベースラインから、堅牢で流動性に配慮したアーキテクチャへと記録している。
そこで我々は,MASが過度に適合した幻覚を放棄し,Byzantineにインスパイアされた一方向状態ロック(RO-Lock)を,決定的に検証された$\geq 95\%のコードカバレッジ制約行列に固定した。
以上の結果から, 初期イテレーションは厳しい実行崩壊を経験する一方で, 最終OOM-RL整列系は, 年次シャープ比2.06の安定平衡を達成できた。
我々は、厳格な経済的罰則による主観的人間選好の代替は、高度で現実的な環境において自律的なエージェントを整合させる堅牢な方法論を提供し、計算請求が客観的な物理的制約として機能する一般化パラダイムの基盤となることを結論付けた。
関連論文リスト
- Bounded by Risk, Not Capability: Quantifying AI Occupational Substitution Rates via a Tech-Risk Dual-Factor Model [0.0]
我々は、職業は瞬時に根絶されるのではなく、徐々に原子の作用によって侵食されると主張している。
923件の職業を2,087件のDWA(Detailed Work Activity)に分解し,多エージェントLLMアンサンブルを用いて技術的実現可能性とビジネスリスクの両立を図る。
論文 参考訳(メタデータ) (2026-04-06T06:21:08Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - A Blueprint for Self-Evolving Coding Agents in Vehicle Aerodynamic Drag Prediction [9.020568132598827]
本稿では, 産業制約下でのドラッグ係数$C_d$を予測するために, 実行可能サロゲートパイプラインを検出する自己進化型符号化エージェントの契約中心の青写真を提案する。
この方法は、静的モデルインスタンスではなく、プログラム上の制約付き最適化としてサロゲート発見を定式化する。
厳しい評価契約は、任意の候補が承認される前に、漏洩防止、決定論的リプレイ、マルチシード、ロバスト性、資源予算を強制する。
論文 参考訳(メタデータ) (2026-03-23T08:36:57Z) - Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。
以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文 参考訳(メタデータ) (2026-02-16T05:17:58Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - Optimistic TEE-Rollups: A Hybrid Architecture for Scalable and Verifiable Generative AI Inference on Blockchain [4.254924788681319]
我々は制約を調和させるハイブリッド検証プロトコルであるOptimistic TEE-Rollups (OTR)を紹介する。
OTRは集中ベースラインのスループットの99%を達成している。
論文 参考訳(メタデータ) (2025-12-23T09:16:41Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。