論文の概要: FairStream: Fair Multimedia Streaming Benchmark for Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2410.21029v1
- Date: Mon, 28 Oct 2024 13:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:58.106900
- Title: FairStream: Fair Multimedia Streaming Benchmark for Reinforcement Learning Agents
- Title(参考訳): FairStream: 強化学習エージェントのための公正なマルチメディアストリーミングベンチマーク
- Authors: Jannis Weil, Jonas Ringsdorf, Julian Barthel, Yi-Ping Phoebe Chen, Tobias Meuser,
- Abstract要約: 本稿では,公平なマルチメディアストリーミングの課題を含む,新しいマルチエージェント環境を提案する。
我々は、5つの異なるトラフィッククラスにわたるアプローチを分析し、考慮されたエージェントの振る舞いに関する詳細な洞察を得る。
- 参考スコア(独自算出の注目度): 9.722943742118234
- License:
- Abstract: Multimedia streaming accounts for the majority of traffic in today's internet. Mechanisms like adaptive bitrate streaming control the bitrate of a stream based on the estimated bandwidth, ideally resulting in smooth playback and a good Quality of Experience (QoE). However, selecting the optimal bitrate is challenging under volatile network conditions. This motivated researchers to train Reinforcement Learning (RL) agents for multimedia streaming. The considered training environments are often simplified, leading to promising results with limited applicability. Additionally, the QoE fairness across multiple streams is seldom considered by recent RL approaches. With this work, we propose a novel multi-agent environment that comprises multiple challenges of fair multimedia streaming: partial observability, multiple objectives, agent heterogeneity and asynchronicity. We provide and analyze baseline approaches across five different traffic classes to gain detailed insights into the behavior of the considered agents, and show that the commonly used Proximal Policy Optimization (PPO) algorithm is outperformed by a simple greedy heuristic. Future work includes the adaptation of multi-agent RL algorithms and further expansions of the environment.
- Abstract(参考訳): マルチメディアストリーミングは、今日のインターネットのトラフィックの大半を占めている。
適応ビットレートストリーミングのようなメカニズムは、推定帯域幅に基づいてストリームのビットレートを制御し、理想的にはスムーズな再生とQoE(Quality of Experience)をもたらす。
しかし、揮発性ネットワーク条件下で最適なビットレートを選択することは困難である。
これにより、研究者はマルチメディアストリーミングのために強化学習エージェント(RL)を訓練する動機となった。
考慮されたトレーニング環境は、しばしば単純化され、適用性に制限のある有望な結果をもたらす。
さらに、複数のストリームにわたるQoEの公平性は、最近のRLアプローチではめったに考慮されない。
本研究で提案するマルチエージェント環境は,部分可観測性,複数目的,エージェントの不均一性,非同期性といった,公平なマルチメディアストリーミングの課題を含む。
提案手法は,5種類のトラフィッククラスにまたがるベースラインアプローチを用いて,検討対象エージェントの挙動を詳細に把握し,PPOアルゴリズムが単純な欲求的ヒューリスティックによってより優れていることを示す。
今後の研究には、マルチエージェントRLアルゴリズムの適応と環境のさらなる拡張が含まれる。
関連論文リスト
- StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - Multi-Stream Cellular Test-Time Adaptation of Real-Time Models Evolving in Dynamic Environments [53.79708667153109]
スマートオブジェクト、特に自動運転車は、限られたリソースのために重要なローカル計算の課題に直面している。
そこで本研究では,モデルがハエに適応し,動的環境をセルに分割する,新しいマルチストリームセルラーテスト時間適応方式を提案する。
我々は、位置と天候条件に基づいて定義された細胞を横断する自動運転車の文脈で、我々の方法論を検証する。
論文 参考訳(メタデータ) (2024-04-27T15:00:57Z) - Selectively Sharing Experiences Improves Multi-Agent Reinforcement Learning [9.25057318925143]
エージェントは他のエージェントと、トレーニング中に観察される遷移の限られた数で共有する、新しいマルチエージェントRLアプローチを提案する。
提案手法は,ベースラインの非共有型分散トレーニングと最先端のマルチエージェントRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T21:35:32Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z) - StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data [0.0]
StreaMulTは、クロスモーダルアテンションとメモリバンクに依存するストリーミングマルチモーダルトランスであり、トレーニング時に任意に長い入力シーケンスを処理し、推論時にストリーミング形式で実行する。
StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。
論文 参考訳(メタデータ) (2021-10-15T11:32:17Z) - Effects of Smart Traffic Signal Control on Air Quality [0.0]
マルチエージェント深部強化学習(MARL)は交通システムにおいて実験的に研究されている。
MA2Cと呼ばれる、確立されたアドバンテージアクター・クリティカル(A2C)アルゴリズムのマルチエージェント版が最近開発され、エージェント間の通信の有望なアイデアを活用している。
この観点から、エージェントは他のエージェントと戦略を共有し、エージェントの数や多様性が増大しても学習プロセスを安定化させる。
論文 参考訳(メタデータ) (2021-07-06T02:48:42Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z) - Decentralized Learning for Channel Allocation in IoT Networks over
Unlicensed Bandwidth as a Contextual Multi-player Multi-armed Bandit Game [134.88020946767404]
本稿では,プライマリセルネットワークにライセンスされたスペクトルに基づいて,アドホックなモノのインターネットネットワークにおける分散チャネル割り当て問題について検討する。
本研究では,この問題をコンテキスト型マルチプレイヤー・マルチアームバンディットゲームにマッピングし,試行錯誤による純粋に分散化された3段階ポリシー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-30T10:05:35Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z) - Non-Cooperative Game Theory Based Rate Adaptation for Dynamic Video
Streaming over HTTP [89.30855958779425]
Dynamic Adaptive Streaming over HTTP (DASH)は、新興かつ有望なマルチメディアストリーミング技術であることを示した。
本稿では,サーバの限られた輸出帯域幅をマルチユーザに対して最適に割り当てるアルゴリズムを提案し,その品質・オブ・エクスペリエンス(QoE)を公平性で最大化する。
論文 参考訳(メタデータ) (2019-12-27T01:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。