論文の概要: OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
- arxiv url: http://arxiv.org/abs/2601.07779v1
- Date: Mon, 12 Jan 2026 17:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.716313
- Title: OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent
- Title(参考訳): OS-Symphony:ロバストで汎用的なコンピュータ利用エージェントのための全体論的なフレームワーク
- Authors: Bowen Yang, Kaiming Jin, Zhenyu Wu, Zhaoyang Liu, Qiushi Sun, Zehao Li, JingJing Xie, Zhoumianze Liu, Fangzhi Xu, Kanzhi Cheng, Qingyun Li, Yian Wang, Yu Qiao, Zun Wang, Zichen Ding,
- Abstract要約: 私たちはOS-Symphonyを紹介します。これは、堅牢な自動化のための2つの重要なイノベーションをコーディネートするOrchestratorを含む包括的なフレームワークです。
結果は、OS-Symphonyが様々なモデルスケールで大幅なパフォーマンス向上をもたらすことを示した。
- 参考スコア(独自算出の注目度): 58.07447442040785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language Models (VLMs) have significantly advanced Computer-Using Agents (CUAs), current frameworks struggle with robustness in long-horizon workflows and generalization in novel domains. These limitations stem from a lack of granular control over historical visual context curation and the absence of visual-aware tutorial retrieval. To bridge these gaps, we introduce OS-Symphony, a holistic framework that comprises an Orchestrator coordinating two key innovations for robust automation: (1) a Reflection-Memory Agent that utilizes milestone-driven long-term memory to enable trajectory-level self-correction, effectively mitigating visual context loss in long-horizon tasks; (2) Versatile Tool Agents featuring a Multimodal Searcher that adopts a SeeAct paradigm to navigate a browser-based sandbox to synthesize live, visually aligned tutorials, thereby resolving fidelity issues in unseen scenarios. Experimental results demonstrate that OS-Symphony delivers substantial performance gains across varying model scales, establishing new state-of-the-art results on three online benchmarks, notably achieving 65.84% on OSWorld.
- Abstract(参考訳): ビジョン・ランゲージ・モデル (VLM) はコンピュータ・ユージング・エージェント (CUA) を著しく進歩させているが、現在のフレームワークは長期のワークフローや新しいドメインの一般化において堅牢性に苦慮している。
これらの制限は、歴史的視覚的コンテキストのキュレーションに対するきめ細かい制御の欠如と、視覚的認識によるチュートリアル検索の欠如に起因している。
これらのギャップを埋めるために,我々はOS-Symphonyを導入する。OS-Symphonyは,ロバストな自動化のための2つの重要なイノベーションをコーディネートするオーケストレータを含む総合的なフレームワークである。(1)軌道レベルの自己補正を実現するためにマイルストーン駆動の長期記憶を利用するリフレクション・メモリエージェント,2)SeeActのパラダイムを取り入れたマルチモーダル・サーチを特徴とするVersatile Tool Agentは,ブラウザベースのサンドボックスをナビゲートして,生きた視覚的に整列したチュートリアルを合成し,不明瞭なシナリオにおける忠実な問題を解消する。
実験の結果、OS-Symphonyは様々なモデルスケールで大幅なパフォーマンス向上をもたらし、3つのオンラインベンチマークで新しい最先端の結果が確立された。
関連論文リスト
- Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - Thinking with Programming Vision: Towards a Unified View for Thinking with Images [23.596757163808906]
最先端のMLLMでさえ驚くほど不安定であり、単純な向きの変化や自然破壊を伴う画像の性能劣化が顕著であることを示す。
我々は,モデルが任意のイメージ操作を実行するユニバーサルインターフェースとしてコードを生成する,フレキシブルでスケーラブルなコード・アズ・ツール・フレームワークであるCodeVisionを提案する。
論文 参考訳(メタデータ) (2025-12-03T12:44:15Z) - DeepEyesV2: Toward Agentic Multimodal Model [3.775371242454792]
エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。
本稿では,DeepEyesV2を導入し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。
我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
論文 参考訳(メタデータ) (2025-11-07T14:31:20Z) - Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence [4.60587070358843]
本稿では,電力伝送システムにおけるリアルタイム異物侵入(FOI)検出と追跡のための新しい枠組みを提案する。
本フレームワークは,(1)高速で堅牢なオブジェクトローカライゼーションのためのYOLOv7セグメンテーションモデル,(2)三重項損失を訓練したConvNeXtベースの特徴抽出器,(3)特徴支援IoUトラッカーを統合した。
スケーラブルなフィールドデプロイメントを実現するため、パイプラインは、混合精度推論を使用して、低コストのエッジハードウェアへのデプロイメントに最適化されている。
論文 参考訳(メタデータ) (2025-09-16T17:17:03Z) - RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - LOVON: Legged Open-Vocabulary Object Navigator [9.600429521100041]
階層型タスク計画のための大規模言語モデルとオープン語彙視覚検出モデルを統合する新しいフレームワークを提案する。
視覚的ジッタリング、ブラインドゾーン、一時的な目標損失といった現実的な課題に対処するために、私たちは専用のソリューションを設計しました。
また,自律ナビゲーション,タスク適応,堅牢なタスク完了におけるLOVONの機能を保証するロボットのための機能実行ロジックも開発した。
論文 参考訳(メタデータ) (2025-07-09T11:02:46Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。