論文の概要: A2Perf: Real-World Autonomous Agents Benchmark
- arxiv url: http://arxiv.org/abs/2503.03056v1
- Date: Tue, 04 Mar 2025 23:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:40.634824
- Title: A2Perf: Real-World Autonomous Agents Benchmark
- Title(参考訳): A2Perf: 実世界の自律エージェントベンチマーク
- Authors: Ikechukwu Uchendu, Jason Jabbour, Korneel Van den Berghe, Joel Runevic, Matthew Stewart, Jeffrey Ma, Srivatsan Krishnan, Izzeddin Gur, Austin Huang, Colton Bishop, Paige Bailey, Wenjie Jiang, Ebrahim M. Songhori, Sergio Guadarrama, Jie Tan, Jordan K. Terry, Aleksandra Faust, Vijay Janapa Reddi,
- Abstract要約: A2Perfは、コンピュータチップのフロアプランニング、Webナビゲーション、四足歩行という、現実世界のドメインに似た3つの環境のベンチマークである。
A2Perfはタスクのパフォーマンス、一般化、システムリソース効率、信頼性を追跡するメトリクスを提供する。
オープンソースベンチマークとしてA2Perfは、長期的な研究コミュニティにとって、アクセスしやすく、最新であり、有用であるように設計されている。
- 参考スコア(独自算出の注目度): 44.86408776628399
- License:
- Abstract: Autonomous agents and systems cover a number of application areas, from robotics and digital assistants to combinatorial optimization, all sharing common, unresolved research challenges. It is not sufficient for agents to merely solve a given task; they must generalize to out-of-distribution tasks, perform reliably, and use hardware resources efficiently during training and inference, among other requirements. Several methods, such as reinforcement learning and imitation learning, are commonly used to tackle these problems, each with different trade-offs. However, there is a lack of benchmarking suites that define the environments, datasets, and metrics which can be used to provide a meaningful way for the community to compare progress on applying these methods to real-world problems. We introduce A2Perf--a benchmark with three environments that closely resemble real-world domains: computer chip floorplanning, web navigation, and quadruped locomotion. A2Perf provides metrics that track task performance, generalization, system resource efficiency, and reliability, which are all critical to real-world applications. Using A2Perf, we demonstrate that web navigation agents can achieve latencies comparable to human reaction times on consumer hardware, reveal reliability trade-offs between algorithms for quadruped locomotion, and quantify the energy costs of different learning approaches for computer chip-design. In addition, we propose a data cost metric to account for the cost incurred acquiring offline data for imitation learning and hybrid algorithms, which allows us to better compare these approaches. A2Perf also contains several standard baselines, enabling apples-to-apples comparisons across methods and facilitating progress in real-world autonomy. As an open-source benchmark, A2Perf is designed to remain accessible, up-to-date, and useful to the research community over the long term.
- Abstract(参考訳): 自律エージェントとシステムは、ロボット工学やデジタルアシスタントから組合せ最適化まで、さまざまな応用分野をカバーする。
エージェントは、与えられたタスクを単に解くだけでは十分ではない。それらは、配布外タスクに一般化し、確実に実行し、トレーニングや推論の間、ハードウェアリソースを効率的に使用する必要がある。
強化学習や模倣学習といったいくつかの手法は、これらの問題に対処するために一般的に用いられ、それぞれ異なるトレードオフを持つ。
しかし、環境、データセット、メトリクスを定義するベンチマークスイートが欠如しており、コミュニティがこれらのメソッドを現実世界の問題に適用する進捗を比較できる有意義な方法を提供するために使用できる。
A2Perfは、コンピュータチップのフロアプランニング、Webナビゲーション、四足歩行という、現実世界のドメインによく似た3つの環境のベンチマークである。
A2Perfはタスクのパフォーマンス、一般化、システムリソース効率、信頼性を追跡するメトリクスを提供する。
A2Perfを用いて、Webナビゲーションエージェントは、消費者ハードウェア上での人間の反応時間に匹敵するレイテンシを達成でき、四足歩行のアルゴリズム間の信頼性のトレードオフを明らかにし、コンピュータチップ設計のための異なる学習アプローチのエネルギーコストを定量化できることを示した。
さらに,シミュレーション学習とハイブリッドアルゴリズムのためのオフラインデータの取得コストを考慮に入れたデータコスト指標を提案し,これらの手法をよりよく比較する。
A2Perfには、いくつかの標準ベースラインが含まれており、メソッド間でのアップルとアプリケーションの比較を可能にし、現実の自律性の向上を促進する。
オープンソースベンチマークとしてA2Perfは、長期的な研究コミュニティにとって、アクセスしやすく、最新であり、有用であるように設計されている。
関連論文リスト
- Multi-Objective Optimization Using Adaptive Distributed Reinforcement Learning [8.471466670802815]
本稿では,多目的・マルチエージェント強化学習(MARL)アルゴリズムを提案する。
我々はエッジクラウドコンピューティングを用いたITS環境でアルゴリズムをテストする。
また,本アルゴリズムは,モジュール化および非同期オンライントレーニング手法により,様々な実用上の問題にも対処する。
論文 参考訳(メタデータ) (2024-03-13T18:05:16Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with Online Learning [55.08287089554127]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Real-time Trajectory-based Social Group Detection [22.86110112028644]
本稿では,ソーシャルグループ検出のためのシンプルで効率的なフレームワークを提案する。
本稿では,行動軌跡がソーシャルグルーピングに与える影響を考察し,新しい,信頼性の高い,高速なデータ駆動手法を用いる。
一般的なJRDBActデータセットに対する実験では,2%から11%の相対的な改善により,顕著な性能向上が見られた。
論文 参考訳(メタデータ) (2023-04-12T08:01:43Z) - Multi-Agent Reinforcement Learning for Long-Term Network Resource
Allocation through Auction: a V2X Application [7.326507804995567]
我々は,自律エージェント間の分散意思決定として,移動エージェントの動的グループ(自動車など)からの計算タスクのオフロードを定式化する。
我々は、競争と協力のバランスをとることで、そのようなエージェントにプライベートとシステム目標の整合を動機付けるインタラクションメカニズムを設計する。
本稿では,部分的,遅延,ノイズの多い状態情報を用いて学習する,新しいマルチエージェントオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T10:29:06Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Learning Centric Wireless Resource Allocation for Edge Computing:
Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。
既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。
本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文 参考訳(メタデータ) (2020-10-29T06:20:40Z) - Multi-scale Interaction for Real-time LiDAR Data Segmentation on an
Embedded Platform [62.91011959772665]
LiDARデータのリアルタイムセマンティックセグメンテーションは、自動運転車にとって不可欠である。
ポイントクラウド上で直接動作する現在のアプローチでは、複雑な空間集約操作を使用する。
本稿では,マルチスケールインタラクションネットワーク(MINet)と呼ばれるプロジェクションベースの手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T19:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。