論文の概要: Computable Fairness: Boltzmann-Softmax Control for AI Resource Allocation
- arxiv url: http://arxiv.org/abs/2605.22827v1
- Date: Sun, 12 Apr 2026 13:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.440479
- Title: Computable Fairness: Boltzmann-Softmax Control for AI Resource Allocation
- Title(参考訳): 計算可能な公正性:AIリソース割り当てのためのボルツマン・ソフトマックス制御
- Authors: Ji-Won Park, Chae Un Kim,
- Abstract要約: 大規模AIシステムでは、GPU計算時間や複数のエージェント間の帯域幅といった不足するリソースを割り当てることが重要な課題である。
本稿では,Boltzmann-Softmax関数を確率的資源割り当て機構として再解釈するフレームワークであるComputable Fair Division (CFD)を提案する。
動的設定では、AHC++は、観測された優位性とポリシー指定ターゲットの間のエラーをフィードバックとして、リアルタイムで$$を更新する。
- 参考スコア(独自算出の注目度): 3.703665167332161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large-scale AI systems, allocating scarce resources such as GPU compute time and bandwidth among multiple agents is a critical challenge. Conventional policies focus on efficiency metrics, potentially leading to dominance concentration that undermines system diversity and stability. We propose Computable Fair Division (CFD), a framework that reinterprets the Boltzmann-Softmax function not as a selection tool but as a probabilistic resource allocation mechanism, redefining the inverse temperature parameter $β$ as a computable control variable governing the efficiency-fairness balance. Static analysis reveals a Pareto frontier with a near-optimal Stability Corridor where total loss remains approximately constant across policy weights. In the dynamic setting, AHC++ (Adaptive Hard-Cap Controller++) updates $β$ in real time using the error between observed dominance and a policy-specified target as feedback. Simulations show that AHC++ suppresses extreme dominance concentration under exogenous shocks while tracking fairness targets without substantial throughput degradation. Scalability analysis confirms that a 100x increase in agents yields only approximately 5.5x increase in execution time. Code: https://github.com/entrofy-ai/computable-fairness
- Abstract(参考訳): 大規模AIシステムでは、GPU計算時間や複数のエージェント間の帯域幅といった不足するリソースを割り当てることが重要な課題である。
従来の政策は効率指標に重点を置いており、システムの多様性と安定性を損なう支配集中に繋がる可能性がある。
本稿では,Boltzmann-Softmax関数を選択ツールではなく,確率的資源配分機構として再解釈するフレームワークであるComputable Fair Division (CFD)を提案する。
静的解析によりパレートフロンティアがほぼ最適に安定な回廊を持つことが明らかとなり、総損失は政策重みにわたってほぼ一定である。
動的設定では、AHC++(Adaptive Hard-Cap Controller++)は、観測された優位性とポリシー指定ターゲットの間のエラーをフィードバックとして、リアルタイムで$β$を更新する。
シミュレーションにより,AHC++は高いスループット低下を伴わずに,外因性ショック下での極端支配性集中を抑制することが示された。
スケーラビリティ分析により、エージェントの100倍の増加は実行時間の約5.5倍の増加しか得られないことを確認した。
コード:https://github.com/entrofy-ai/computable-fairness
関連論文リスト
- Residual-Controlled Multiplier Learning for Stochastic Constrained Decision-Making [12.04727482907937]
CMLは、ミニバッチ条件下での一次フィードバック乗算器のノイズを追跡する問題に対処する。
乗算器を有限ゲイン乗算器と原始降下のための有効圧力信号に分解する。
論文 参考訳(メタデータ) (2026-06-05T09:35:22Z) - Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent [53.828537014796574]
オンラインの非政治強化学習(RL)は、ポリシークラスと更新ルールの2つの選択肢によって構成されている。
我々は、MeanFlow変換を通じてノイズをアクションにマッピングする一段階生成ポリシークラスであるMeanFlow Policiesを提案する。
7つのMuJoCoベンチマークで、Sは1ステップの推論効率を維持しながら、ガウスおよび生成ベースラインを改善する。
論文 参考訳(メタデータ) (2026-05-20T15:14:14Z) - Holder Policy Optimisation [26.521180498291717]
textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
論文 参考訳(メタデータ) (2026-05-12T12:45:03Z) - Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret [71.69884486156359]
我々は, 累積的不完全化予算を用いて, エンフルティソースの不完全性選好からエピソードRLを考察した。
我々は,最良な登録行動を示す,後悔$tildeO(sqrtK/M+)$の統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-20T19:34:53Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint [8.071506311915396]
強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
本稿では,学習可能な状態依存スラック変数を用いて実装を改善する。
論文 参考訳(メタデータ) (2023-03-08T03:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。