論文の概要: Temporal Fair Division in Multi-Agent Systems: From Precise Alternation Metrics to Scalable Coordination Proxies
- arxiv url: http://arxiv.org/abs/2605.14879v1
- Date: Thu, 14 May 2026 14:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.128864
- Title: Temporal Fair Division in Multi-Agent Systems: From Precise Alternation Metrics to Scalable Coordination Proxies
- Title(参考訳): マルチエージェントシステムにおける時間的フェアディビジョン:精密交替距離からスケーラブルなコーディネートプロキシへ
- Authors: Nikolaos Al. Papadopoulos,
- Abstract要約: 本稿では、回転周期性(RP)の導入による時間的公正分割の理論を推し進める。
RPは時間的公正性を2つの補完的尺度に分解する:回転スコア(RS)と待ち時間評価(WPE)
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A plethora real-world environments require agents to compete repeatedly for the same limited resource, calling for a temporal notion of fairness judged across entire interaction histories. This paper advances the theory of temporal fair division by introducing Rotational Periodicity (RP), a family of lightweight metrics, alongside the ALT family of sliding-window measures, within a unified framework for repeated multi-agent resource competition. We formalise the Multi-Agent Battle of the Exes (MBoE) as a repeated fair division instance and establish Perfect Alternation (PA) as its canonical temporally fair solution, drawing connections to proportionality, envy-freeness, and n-periodic round-robin allocation. RP decomposes temporal fairness into two complementary sub-measures: Rotational Score (RS) and Waiting Periods Evaluation (WPE), achieving O(nu+n) time complexity versus the O(nu*n) of ALT, where nu is the episode count and n the agent count. Empirical evaluation across n in {2,3,5,8,10} reveals three findings. First, both RP and ALT expose a coordination failure invisible to traditional metrics: Q-learning agents perform worse than random policies by 10-73% on RP and 7-35% on CALT, while Reward Fairness remains misleadingly high (above 0.92 for n>=3). Second, RP achieves 12-25x computational speedup over ALT, growing with n. Third, the two families are complementary: ALT provides richer discrimination for small populations; RP scales reliably where ALT becomes intractable. Together they form a diagnostic toolkit for temporal fair division.
- Abstract(参考訳): 現実世界の環境は、エージェントが同じ限られたリソースに対して繰り返し競合することを必要とし、相互作用履歴全体にわたって判断される公平性の時間的概念を要求している。
本稿では,複数エージェントの資源競争を繰り返す統一的枠組みの中で,ALTのスライディングウインドウ対策群と並行して,軽量なメトリクス群であるRP(Rotational Periodicity)を導入することにより,時間的公正分割の理論を推し進める。
われわれは,多エージェント・バトル・オブ・ザ・エクエス (MBoE) を連発するフェアディビジョン・インスタンスとして定式化し,パーフェクト・オルタネーション (PA) を標準的時間的フェア・ソリューションとして確立し,比例性,うらやましい自由度,n周期のラウンドロビンアロケーションへの接続を図った。
RPは時間的公正性を2つの相補的な尺度に分解する: 回転スコア(RS)と待ち時間評価(WPE)、ALTのO(nu+n)時間複雑性とO(nu*n)時間複雑性(nuがエピソードカウント、nがエージェントカウント)。
n の {2,3,5,8,10} における経験的評価は3つの結果を示す。
まず、RPとALTは、従来の指標では見えない調整障害を露呈する。Q学習エージェントは、RPで10~73%、CALTで7~35%、Reward Fairnessは誤解を招くほど高い(n>=3)。
第2に、RP は ALT 上で 12-25 倍の計算速度を達成し、n で成長する。
第3に、これら2つのファミリーは補完的であり、ALTは小さな集団に対してよりリッチな差別を提供し、RPはALTが難易度を持つように確実にスケールする。
同時に、時間的公正分割のための診断ツールキットを形成する。
関連論文リスト
- Beyond Arrow's Impossibility: Fairness as an Emergent Property of Multi-Agent Collaboration [3.4539478661465766]
大規模言語モデルがエージェントとなるにつれて、相互作用と交換によって公平性が生まれることを提案する。
本研究は,2人のエージェントが3回の構造化された議論ラウンドで交渉する,管理された病院トリアージの枠組みを用いて研究する。
論文 参考訳(メタデータ) (2026-04-15T10:34:35Z) - AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - Bounded Coupled AI Learning Dynamics in Tri-Hierarchical Drone Swarms [0.0]
本稿では,3つのメカニズムが同時に作用する三階層型群学習システムについて検討する。
境界付き全誤差定理(英語版)は、学習速度に対する契約上の制約の下で、全準最適性は、時間内にコンポーネント右上界の均一性を認めることを示している。
境界表現 Drift Theorem は、Hebbian のアップデートが 1 つの MARL サイクルにおける調整レベル埋め込みにどのように影響するかを最悪のケースで見積もっている。
論文 参考訳(メタデータ) (2026-03-20T07:23:32Z) - Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation [59.362016745945375]
第1回LLM-Adnt Recommendation framework(TriRec)を提案する。
TriRecは、ユーザユーティリティ、アイテム露出、プラットフォームレベルの公正性を明示的に調整する。
精度、公平性、およびアイテムレベルのユーティリティにおいて、一貫した利得を示す。
論文 参考訳(メタデータ) (2026-03-11T11:40:13Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes [0.0]
マルコフゲームとして,BoEから派生したエグゼスの戦いのマルチエージェント変種について検討する。
高い総括的な支払いは、時間的調整の貧弱さと共存できることを示す。
論文 参考訳(メタデータ) (2026-03-06T00:43:53Z) - MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:59:23Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Achieving Tighter Finite-Time Rates for Heterogeneous Federated Stochastic Approximation under Markovian Sampling [6.549288471493216]
我々は,M$エージェントを含む汎用的な近似問題について検討した。
目標は、エージェントがサーバを介して断続的に通信し、エージェントのローカルオペレータの平均のルートを見つけることである。
我々はtexttFedHSA という名の新しいアルゴリズムを開発し、正しい点への収束を保証することを証明した。
論文 参考訳(メタデータ) (2025-04-15T22:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。