論文の概要: DPO Learning with LLMs-Judge Signal for Computer Use Agents
- arxiv url: http://arxiv.org/abs/2506.03095v1
- Date: Tue, 03 Jun 2025 17:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.448679
- Title: DPO Learning with LLMs-Judge Signal for Computer Use Agents
- Title(参考訳): LLMを用いたDPO学習
- Authors: Man Luo, David Cobbley, Xin Su, Shachar Rosenman, Vasudev Lal, Shao-Yen Tseng, Phillip Howard,
- Abstract要約: コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インタフェース(GUI)と自動的に対話してタスクを完了させるシステムである。
ローカルマシン上で完全に動作する軽量な視覚言語モデルを開発した。
- 参考スコア(独自算出の注目度): 9.454381108993832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer use agents (CUA) are systems that automatically interact with graphical user interfaces (GUIs) to complete tasks. CUA have made significant progress with the advent of large vision-language models (VLMs). However, these agents typically rely on cloud-based inference with substantial compute demands, raising critical privacy and scalability concerns, especially when operating on personal devices. In this work, we take a step toward privacy-preserving and resource-efficient agents by developing a lightweight vision-language model that runs entirely on local machines. To train this compact agent, we introduce an LLM-as-Judge framework that automatically evaluates and filters synthetic interaction trajectories, producing high-quality data for reinforcement learning without human annotation. Experiments on the OS-World benchmark demonstrate that our fine-tuned local model outperforms existing baselines, highlighting a promising path toward private, efficient, and generalizable GUI agents.
- Abstract(参考訳): コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インタフェース(GUI)と自動的に対話してタスクを完了させるシステムである。
CUAは、大きな視覚言語モデル(VLM)の出現によって大きな進歩を遂げた。
しかしながら、これらのエージェントは一般的に、大きな計算要求を伴うクラウドベースの推論に依存し、特にパーソナルデバイスで運用する場合に、重要なプライバシーとスケーラビリティ上の懸念を提起する。
本研究では、ローカルマシン上で完全に動作する軽量なビジョン言語モデルを開発することにより、プライバシ保護とリソース効率のエージェントへの一歩を踏み出す。
この小型エージェントを訓練するために,合成相互作用軌跡を自動評価・フィルタリングするLDM-as-Judgeフレームワークを導入し,人間のアノテーションを使わずに強化学習のための高品質なデータを生成する。
OS-Worldベンチマークの実験では、微調整されたローカルモデルが既存のベースラインより優れており、プライベート、効率的、一般化可能なGUIエージェントへの有望な道が示されています。
関連論文リスト
- AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - API Agents vs. GUI Agents: Divergence and Convergence [35.28490346033735]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data [15.801018643716437]
本稿では,大規模視覚言語モデル(LVLM)のGUI理解と対話能力を,データ駆動型アプローチにより向上することを目的とする。
本稿では,Web上のWebページから大規模で粒度の高いトレーニングデータを自動的に生成する汎用データ合成フレームワークEDGEを提案する。
提案手法は,手動アノテーションへの依存を著しく低減し,研究者がWeb上で利用可能な膨大な公開リソースを活用して作業を進めることを可能にする。
論文 参考訳(メタデータ) (2024-10-25T10:46:17Z) - CAMPHOR: Collaborative Agents for Multi-input Planning and High-Order Reasoning On Device [2.4100803794273005]
本稿では、複数のユーザ入力を処理し、個人的コンテキストを局所的に理性的に扱うように設計された、オンデバイス・スモールランゲージ・モデル(SLM)フレームワークを提案する。
CAMPHORは階層的アーキテクチャを採用しており、高階推論エージェントは複雑なタスクを分解し、個人のコンテキスト検索、ツールインタラクション、動的プラン生成に責任を持つ専門家エージェントを調整する。
エージェント間でパラメータ共有を実装し、即時圧縮を活用することにより、モデルサイズ、レイテンシ、メモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-12T07:28:10Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。