論文の概要: OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks
- arxiv url: http://arxiv.org/abs/2601.20650v1
- Date: Wed, 28 Jan 2026 14:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.976821
- Title: OS-Marathon: Benchmarking Computer-Use Agents on Long-Horizon Repetitive Tasks
- Title(参考訳): OS-Marathon: 長期反復タスクにおけるコンピュータ利用エージェントのベンチマーク
- Authors: Jing Wu, Daphne Barretto, Yiye Chen, Nicholas Gydé, Yanan Jian, Yuhang He, Vibhav Vineet,
- Abstract要約: ロングホライズンで反復的なタスクは、プロフェッショナルな設定で一般的である。
これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。
我々は2つのドメインにまたがる242の長期的反復的なタスクからなるOS-Marathonを構築し、SOTA(State-of-the-art)エージェントを評価する。
- 参考スコア(独自算出の注目度): 36.99798674847767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon, repetitive workflows are common in professional settings, such as processing expense reports from receipts and entering student grades from exam papers. These tasks are often tedious for humans since they can extend to extreme lengths proportional to the size of the data to process. However, they are ideal for Computer-Use Agents (CUAs) due to their structured, recurring sub-workflows with logic that can be systematically learned. Identifying the absence of an evaluation benchmark as a primary bottleneck, we establish OS-Marathon, comprising 242 long-horizon, repetitive tasks across 2 domains to evaluate state-of-the-art (SOTA) agents. We then introduce a cost-effective method to construct a condensed demonstration using only few-shot examples to teach agents the underlying workflow logic, enabling them to execute similar workflows effectively on larger, unseen data collections. Extensive experiments demonstrate both the inherent challenges of these tasks and the effectiveness of our proposed method. Project website: https://os-marathon.github.io/.
- Abstract(参考訳): 長期にわたる反復的なワークフローは、レシートからの費用報告の処理や試験論文からの学生の成績の入力など、プロフェッショナルな設定で一般的である。
これらのタスクは、処理するデータのサイズに比例して極端な長さまで拡張できるため、人間にとって退屈な作業であることが多い。
しかし、コンピュータ・ユース・エージェント(CUA)には、体系的に学習可能な論理を伴うサブワークフローが繰り返し発生するため、これらは理想的である。
評価ベンチマークの欠如を主要なボトルネックとして認識し,2つの領域にまたがる242の長時間の繰り返しタスクからなるOS-Marathonを構築し,SOTA(State-of-the-art)エージェントを評価する。
次に、数ショットの例を使って、コスト効率のよいデモを構築する方法を導入し、エージェントに基礎となるワークフローロジックを教え、より大きく、見えないデータコレクション上で、同様のワークフローを効果的に実行できるようにします。
大規模実験により,これらの課題と提案手法の有効性が示された。
プロジェクトウェブサイト:https://os-marathon.github.io/.com
関連論文リスト
- Trajectory2Task: Training Robust Tool-Calling Agents with Synthesized Yet Verifiable Data for Complex User Intents [52.30603055218294]
Trajectory2Taskは,3つの現実的なユーザシナリオの下で大規模なツール使用を研究するための,検証可能なデータ生成パイプラインである。
有効なツールコールトラジェクトリを、制御されたインテント適応を伴うユーザ向けタスクに変換する。
我々は、生成された複雑なユーザシナリオタスクに対して、7つの最先端のLCMをベンチマークし、頻繁な障害を観察する。
論文 参考訳(メタデータ) (2026-01-28T00:36:13Z) - Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - Beyond Rule-Based Workflows: An Information-Flow-Orchestrated Multi-Agents Paradigm via Agent-to-Agent Communication from CORAL [0.15199492741752027]
本稿ではエージェント・ツー・エージェント(A2A)通信を用いた情報フロー型マルチエージェントパラダイムを提案する。
汎用ベンチマークGAIAに対する我々のアプローチを,代表的ワークフローベースMASをベースラインとして評価した。
本手法は63.64%の精度を達成し, OWL の55.15% を8.49 % に上回り, トークン消費に匹敵する性能を示した。
論文 参考訳(メタデータ) (2026-01-14T21:35:51Z) - Solving Context Window Overflow in AI Agents [0.0]
大規模言語モデル(LLM)は、外部ツールとのインタラクションが可能になり、トレーニングデータ以外の特別な知識にアクセスできるようになる。
トランケーションや要約のような既存のソリューションは完全な出力を保存することができず、完全なデータを必要とする作業には適さない。
本稿では,LLMが情報を失うことなく任意の長さのツール応答を処理し,利用できるようにする手法を提案する。
論文 参考訳(メタデータ) (2025-11-27T19:22:20Z) - Residual Multi-Task Learner for Applied Ranking [11.774841918446137]
ResFlowは、効率的なクロスタスク情報共有を可能にする軽量なマルチタスク学習フレームワークである。
Shopee Searchのプレランクモジュールに完全にデプロイされている。
論文 参考訳(メタデータ) (2024-10-30T06:49:45Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (2024-09-11T17:21:00Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。