Fugu-MT 論文翻訳(概要): ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks

論文の概要: ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks

arxiv url: http://arxiv.org/abs/2510.14621v1
Date: Thu, 16 Oct 2025 12:30:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.848979
Title: ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks
Title（参考訳）: ColorBench: 複雑な長距離タスクのためのグラフ構造化フレームワークによるモバイルエージェントのベンチマーク
Authors: Yuanyi Song, Heyuan Huang, Qiqiang Lin, Yin Zhao, Xiangmou Qu, Jun Wang, Xingyu Lou, Weiwen Liu, Zhuosheng Zhang, Jun Wang, Yong Yu, Weinan Zhang, Zhaoxiang Wang,
Abstract要約: 実世界のタスクは複雑で、複数の有効なソリューションが可能である。オフラインベンチマークは、1つの事前定義された"ゴールドパス"のみを検証することができるオンライン動的テストは、実際のデバイスの複雑さと非再現性によって制約される。本稿では,新しいグラフ構造化ベンチマークフレームワークを提案する。
参考スコア（独自算出の注目度）: 37.79008306764891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of multimodal large language models has enabled agents to operate mobile devices by directly interacting with graphical user interfaces, opening new possibilities for mobile automation. However, real-world mobile tasks are often complex and allow for multiple valid solutions. This contradicts current mobile agent evaluation standards: offline static benchmarks can only validate a single predefined "golden path", while online dynamic testing is constrained by the complexity and non-reproducibility of real devices, making both approaches inadequate for comprehensively assessing agent capabilities. To bridge the gap between offline and online evaluation and enhance testing stability, this paper introduces a novel graph-structured benchmarking framework. By modeling the finite states observed during real-device interactions, it achieves static simulation of dynamic behaviors. Building on this, we develop ColorBench, a benchmark focused on complex long-horizon tasks. It supports evaluation of multiple valid solutions, subtask completion rate statistics, and atomic-level capability analysis. ColorBench contains 175 tasks (74 single-app, 101 cross-app) with an average length of over 13 steps. Each task includes at least two correct paths and several typical error paths, enabling quasi-dynamic interaction. By evaluating ColorBench across various baselines, we discover limitations of existing models and propose improvement directions and feasible technical pathways to enhance agents' performance on complex, long-horizon problems based on experimental results. Code and data are available at: https://github.com/MadeAgents/ColorBench.
Abstract（参考訳）: マルチモーダルな大規模言語モデルの急速な進歩により、エージェントはグラフィカルユーザインタフェースと直接対話することでモバイルデバイスを操作することができ、モバイル自動化の新たな可能性を開くことができる。しかし、現実のモバイルタスクは多くの場合複雑であり、複数の有効なソリューションを可能にする。オフラインの静的ベンチマークは1つの事前定義された"ゴールドパス"のみを検証することができるのに対して、オンラインの動的テストは実際のデバイスの複雑さと非再現性によって制約されるため、エージェント能力の包括的な評価には両アプローチが不十分である。オフラインとオンラインの間のギャップを埋め、テストの安定性を高めるために、新しいグラフ構造化ベンチマークフレームワークを提案する。実デバイス間相互作用で観測される有限状態のモデリングにより、動的挙動の静的シミュレーションを実現する。これに基づいて、複雑な長期タスクに焦点を当てたベンチマークであるColorBenchを開発した。複数の有効なソリューションの評価、サブタスク完了率統計、原子レベルの能力分析をサポートする。 ColorBenchには175のタスク(74のシングルアプリ、101のクロスアプリ)があり、平均的な長さは13ステップ以上である。各タスクは、少なくとも2つの正しいパスといくつかの典型的なエラーパスを含み、準力学的相互作用を可能にする。各種ベースラインにまたがるColorBenchの評価により,既存モデルの限界を発見し,実験結果に基づいてエージェントの性能を向上させるための改良方向と実現可能な技術経路を提案する。コードとデータは、https://github.com/MadeAgents/ColorBench.comで入手できる。

関連論文リスト

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文参考訳（メタデータ） (2026-01-17T01:29:30Z)
Modular and Multi-Path-Aware Offline Benchmarking for Mobile GUI Agents [6.501527187326423]
MobiBenchは、モバイルGUIエージェントのためのモジュール式でマルチパスのオフラインベンチマークフレームワークである。オフライン設定で高い忠実さ、スケーラブル、再現可能な評価を可能にする。実験の結果,MobiBench GUIは94.72パーセントのヒト評価者との合意を達成できた。
論文参考訳（メタデータ） (2025-12-14T10:41:39Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。 Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文参考訳（メタデータ） (2025-05-17T07:58:34Z)
STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文参考訳（メタデータ） (2025-01-24T16:27:28Z)
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks [85.48034185086169]
Mobile-Agent-Eは、過去の経験を通じて自己進化できる階層的なマルチエージェントフレームワークである。 Mobile-Agent-Eは従来の最先端アプローチよりも22%の絶対的な改善を実現している。
論文参考訳（メタデータ） (2025-01-20T20:35:46Z)
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey [72.29426995154088]
モバイルエージェントは、複雑で動的なモバイル環境におけるタスクの自動化に不可欠である。近年の進歩により、リアルタイム適応性とマルチモーダルインタラクションが向上している。これらの進歩は、プロンプトベースの方法とトレーニングベースの方法の2つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2024-11-04T11:50:58Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。