Fugu-MT 論文翻訳(概要): Achieving Fairness in DareFightingICE Agents Evaluation Through a Delay Mechanism

論文の概要: Achieving Fairness in DareFightingICE Agents Evaluation Through a Delay Mechanism

arxiv url: http://arxiv.org/abs/2312.16010v1
Date: Tue, 26 Dec 2023 11:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 15:22:49.660480
Title: Achieving Fairness in DareFightingICE Agents Evaluation Through a Delay Mechanism
Title（参考訳）: 遅延機構による抗戦剤評価の公平性の実現
Authors: Chollakorn Nimpattanavong, Thai Van Nguyen, Ibrahim Khan, Ruck Thawonmas, Worawat Choensawat, Kingkarn Sookhanaphibarn
Abstract要約: 調査によると、JavaとPythonのgRPCレイテンシの違いは、リアルタイムの意思決定に大きく影響している。遅延メカニズムがなければ、JavaプラットフォームでのgRPCレイテンシの低下により、JavaベースのエージェントはPythonベースのエージェントを上回っます。
参考スコア（独自算出の注目度）: 0.23301643766310368
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes a delay mechanism to mitigate the impact of latency differences in the gRPC framework--a high-performance, open-source universal remote procedure call (RPC) framework--between different programming languages on the performance of agents in DareFightingICE, a fighting game research platform. The study finds that gRPC latency differences between Java and Python can significantly impact real-time decision-making. Without a delay mechanism, Java-based agents outperform Python-based ones due to lower gRPC latency on the Java platform. However, with the proposed delay mechanism, both Java-based and Python-based agents exhibit similar performance, leading to a fair comparison between agents developed using different programming languages. Thus, this work underscores the crucial importance of considering gRPC latency when developing and evaluating agents in DareFightingICE, and the insights gained could potentially extend to other gRPC-based applications.
Abstract（参考訳）: 本稿では,grpcフレームワークにおけるレイテンシ差の影響を軽減するための遅延機構を提案する。grpcフレームワーク - 高性能でオープンソースのユニバーサルリモートプロシージャコール(rpc)フレームワーク- - 異なるプログラミング言語間における,戦闘ゲーム研究プラットフォームであるdarefightingiceにおけるエージェントのパフォーマンス - を提案する。調査によると、JavaとPythonのgRPCレイテンシの違いは、リアルタイムな意思決定に大きな影響を与える。遅延メカニズムがなければ、JavaプラットフォームでのgRPCレイテンシの低下により、JavaベースのエージェントはPythonベースのエージェントを上回っます。しかし、提案された遅延メカニズムにより、JavaベースのエージェントとPythonベースのエージェントの両方が同様の性能を示し、異なるプログラミング言語を用いて開発されたエージェントの公正な比較に繋がる。したがって、この研究は、DareFightingICEでエージェントの開発と評価を行う際のgRPCレイテンシを考慮することの重要性を強調している。

関連論文リスト

Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-06-17T11:11:37Z)
LLM-Enhanced Rapid-Reflex Async-Reflect Embodied Agent for Real-Time Decision-Making in Dynamically Changing Environments [6.227284273306464]
意思決定の遅れは、重要かつ不十分に研究された問題として現れます。本稿では、意思決定の遅延を等価なシミュレーションフレームに変換する時間変換機構(TCM)を提案する。本稿では,軽量LLM誘導フィードバックモジュールとルールベースエージェントを結合したRapid-Reflect Agent(RRARA)を提案する。
論文参考訳（メタデータ） (2025-06-08T17:09:26Z)
Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Delayed Observation [10.511062258286335]
実世界のマルチエージェントシステムでは、観測遅延はユビキタスであり、エージェントが環境の真の状態に基づいて決定を下すのを防ぐ。遅延特性の異なるこれらの離散観測成分は、マルチエージェント強化学習において重要な課題である。まず、分散化された個別遅延部分観測可能決定プロセス(DSID-POMDP)を標準のDec-POMDPを拡張して定式化する。次に、個々の遅延に対処するためのRainbow Delay Compensation (RDC)フレームワークを提案し、構成モジュールの実装を推奨する。
論文参考訳（メタデータ） (2025-05-06T14:47:56Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing [14.260646140460187]
計算集約的な更新のタイムラインを調査し、AoIを最小化するためにタスク更新とオフロードポリシーを共同で最適化する。具体的には、エッジ負荷のダイナミクスを考慮し、期待時間平均AoIを最小化するためにタスクスケジューリング問題を定式化する。提案アルゴリズムは,実験における最良基準アルゴリズムと比較して平均AoIを最大52.6%削減する。
論文参考訳（メタデータ） (2024-09-25T11:33:32Z)
A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文参考訳（メタデータ） (2024-06-25T07:45:00Z)
Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文参考訳（メタデータ） (2023-12-01T01:30:49Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Real-Time Motion Prediction via Heterogeneous Polyline Transformer with Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。 K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文参考訳（メタデータ） (2023-10-19T17:59:01Z)
Delays in Reinforcement Learning [2.5835347022640254]
この論文は、エージェントの環境状態の観察やエージェントの行動の実行の遅延を研究することを目的としている。幅広い遅延が考慮され、潜在的な解決策が提示される。
論文参考訳（メタデータ） (2023-09-20T07:04:46Z)
Fault-Tolerant Collaborative Inference through the Edge-PRUNE Framework [4.984601297028258]
協調推論(Collaborative Inference)は、計算負荷の分散、レイテンシの低減、通信におけるプライバシ保護への対処のための手段である。本稿では, フォールトトレラントな協調推論のための柔軟な基盤を提供するエッジ-PRUNE分散計算フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-16T13:16:53Z)
Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文参考訳（メタデータ） (2021-08-17T10:45:55Z)
Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。 RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文参考訳（メタデータ） (2021-03-21T01:04:24Z)
Delay-Aware Multi-Agent Reinforcement Learning for Cooperative and Competitive Environments [23.301322095357808]
アクションと観察の遅延は、現実世界のサイバー物理システムに多く存在する。本稿では,遅延に対処する新しいフレームワークと,マルチエージェントタスクの非定常トレーニング問題を提案する。実験は, 協調コミュニケーション, 協調ナビゲーション, 競争実験を含む多エージェント粒子環境下で実施される。
論文参考訳（メタデータ） (2020-05-11T21:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。