論文の概要: Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2605.28775v1
- Date: Wed, 27 May 2026 17:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.251043
- Title: Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents
- Title(参考訳): 弱さから学ぶ:小型コンピュータ利用エージェントのためのドメインスペシャライゼーション自動化
- Authors: Suji Kim, Kangsan Kim, Sung Ju Hwang,
- Abstract要約: LearnWeakは、小さなコンピュータ利用エージェントのためのアノテーションなしの特殊化フレームワークである。
より強力な参照エージェントを使用して、ターゲットドメインにおける生徒の弱点を特定する。
OSWorldでは、LearningWeakはEvoCUA-8BとOpenCUA-7Bで平均11.6と1.1ポイントのアップを達成した。
- 参考スコア(独自算出の注目度): 50.9289355646609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、最近かなりの進歩を遂げているが、ソフトウェアドメインごとに個別に大規模な専門家を配置することは、依然として高価である。
小型のオープンコンピュータ利用エージェントは、より実用的な特殊化ターゲットであるが、それらはより弱いままであり、不均一なドメイン固有の障害を示す。
簡単に言えば、ターゲットドメインの大規模なトレーニングデータを合成することですが、この単純なアプローチでは限界的な改善しか得られません。
この観察に基づいてLearnerWeakは,より強力な参照エージェントを用いて,対象ドメインにおける生徒の弱点を特定し,目標タスクを合成し,自動的に管理を構築する,小型コンピュータ用エージェントのためのアノテーションフリー特殊化フレームワークである。
LearnWeakはさらに、計画と実行のエラーを混乱させ、広範な統一的な監視よりも行動的に正確な更新を可能にする、エラー認識の特殊化の目標も導入している。
OSWorldでは、LearningWeakはEvoCUA-8BとOpenCUA-7Bで平均11.6ポイント、平均11.1ポイントを8つのドメインで達成している。
また、学生が認識するデータセット生成とトレーニングアプローチが、既存の自律軌道生成とトレーニングベースラインを上回っていることを検証する。
我々の研究は、データ合成とエージェントトレーニングの両方において、学生の意識の重要性を強調し、多様なドメインにおける小さなコンピュータ利用エージェントを専門化するための、より原則的で効率的な道のりを指している。
関連論文リスト
- Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data [49.315842374696295]
大規模言語モデル(LLM)は、複雑なタスクを解決するツールを使用する自律エージェントの基盤になりつつある。
本稿では,汎用ツールコールエージェントをセルフプレイRLでスクラッチからトレーニングするためのツール-R0フレームワークを提案する。
我々の研究は、共進化、カリキュラムのダイナミクス、スケーリングの振る舞いを分析することで、自己プレイのLCMエージェントに関する経験的な洞察を提供する。
論文 参考訳(メタデータ) (2026-02-24T19:41:18Z) - Boosting Deep Reinforcement Learning with Semantic Knowledge for Robotic Manipulators [2.6913398550088483]
Deep Reinforcement Learning (DRL)は、複雑なシーケンシャルな意思決定問題を解決するための強力なフレームワークである。
我々は、知識グラフ埋め込み(KGE)という形で意味知識とDRLの新たな統合を提案する。
我々のアーキテクチャは、KGEと視覚的観察を組み合わせることで、エージェントがトレーニング中に環境知識を活用できるようにする。
論文 参考訳(メタデータ) (2026-01-23T16:14:28Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Privacy Risks in Reinforcement Learning for Household Robots [42.675213619562975]
プライバシーは、ロボットが実質的な個人情報にアクセスすることによって、具体化されたAIの領域における重要な関心事として浮上する。
本稿では,値に基づくアルゴリズムと勾配に基づくアルゴリズムのトレーニングプロセスに対する攻撃を提案し,状態,行動,監督信号の再構成に勾配インバージョンを利用する。
論文 参考訳(メタデータ) (2023-06-15T16:53:26Z) - Maximizing Model Generalization for Machine Condition Monitoring with
Self-Supervised Learning and Federated Learning [4.214064911004321]
Deep Learningは、手動で設計された統計的特徴なしで、障害を診断し、生の状態監視データからマシンの健康を評価する。
伝統的な教師付き学習は、目に見えない対象ドメインに一般化するコンパクトで差別的な表現を学ぶのに苦労することがある。
本研究は,対象領域にモデルをコピーするために,ソース領域における特徴一般化の最大化と重み移動によるTLの適用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-27T17:57:54Z) - On-Device Domain Generalization [93.79736882489982]
ドメインの一般化はデバイス上の機械学習アプリケーションにとって重要である。
知識蒸留がこの問題の解決の有力な候補であることがわかった。
本研究では,教師が配布外データをどのように扱えるかを学生に教えることを目的とした,配布外知識蒸留(OKD)という簡単なアイデアを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。