論文の概要: Fara-7B: An Efficient Agentic Model for Computer Use
- arxiv url: http://arxiv.org/abs/2511.19663v1
- Date: Mon, 24 Nov 2025 19:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.142628
- Title: Fara-7B: An Efficient Agentic Model for Computer Use
- Title(参考訳): Fara-7B:コンピュータ利用のための効率的なエージェントモデル
- Authors: Ahmed Awadallah, Yash Lara, Raghav Magazine, Hussein Mozannar, Akshay Nambi, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Vibhav Vineet, Spencer Whitehead, Andrew Zhao,
- Abstract要約: マルチステップWebタスクのための新しい合成データ生成システムであるFaraGenを紹介する。
このデータを用いて、スクリーンショットのみを使用してコンピュータを知覚するネイティブCUAモデルであるFara-7Bをトレーニングする。
Fara-7Bは、WebVoyager、Online-Mind2Web、WebTailBenchといったベンチマークで、同等の大きさのCUAモデルよりも優れています。
- 参考スコア(独自算出の注目度): 34.151874887626256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in computer use agents (CUAs) has been constrained by the absence of large and high-quality datasets that capture how humans interact with a computer. While LLMs have thrived on abundant textual data, no comparable corpus exists for CUA trajectories. To address these gaps, we introduce FaraGen, a novel synthetic data generation system for multi-step web tasks. FaraGen can propose diverse tasks from frequently used websites, generate multiple solution attempts, and filter successful trajectories using multiple verifiers. It achieves high throughput, yield, and diversity for multi-step web tasks, producing verified trajectories at approximately $1 each. We use this data to train Fara-7B, a native CUA model that perceives the computer using only screenshots, executes actions via predicted coordinates, and is small enough to run on-device. We find that Fara-7B outperforms other CUA models of comparable size on benchmarks like WebVoyager, Online-Mind2Web, and WebTailBench -- our novel benchmark that better captures under-represented web tasks in pre-existing benchmarks. Furthermore, Fara-7B is competitive with much larger frontier models, illustrating key benefits of scalable data generation systems in advancing small efficient agentic models. We are making Fara-7B open-weight on Microsoft Foundry and HuggingFace, and we are releasing WebTailBench.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)の進歩は、人間がコンピュータとどのように相互作用するかをキャプチャする大規模で高品質なデータセットがないことによって制約されている。
LLMは豊富なテキストデータに基づいて成長してきたが、CUA軌道に匹敵するコーパスは存在しない。
これらのギャップに対処するために,多段階Webタスクのための新しい合成データ生成システムであるFaraGenを紹介する。
FaraGenは、頻繁に使われるWebサイトから多様なタスクを提案し、複数のソリューション試行を生成し、複数の検証子を使って成功したトラジェクトリをフィルタリングすることができる。
マルチステップのWebタスクに対して高いスループット、収量、多様性を実現し、それぞれ約1ドルで検証されたトラジェクトリを生成する。
このデータを使ってFara-7Bを訓練する。これはネイティブCUAモデルで、スクリーンショットのみを使用してコンピュータを知覚し、予測された座標を介してアクションを実行する。
Fara-7BはWebVoyager、Online-Mind2Web、WebTailBenchといったベンチマークで同等の大きさのCUAモデルよりも優れています。
さらにFara-7Bは、より大規模なフロンティアモデルと競合し、小規模で効率的なエージェントモデルを進める上で、スケーラブルなデータ生成システムの重要な利点を実証している。
私たちはMicrosoft FoundryとHuggingFaceでFara-7Bをオープンソースにしています。
関連論文リスト
- UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data [119.41354691583899]
ScaleCUAは、オープンソースのコンピュータ利用データとファンデーションモデルをスケーリングするためのステップである。
6つのオペレーティングシステムと3つのタスクドメインにまたがる大規模なデータセットを提供する。
論文 参考訳(メタデータ) (2025-09-18T17:59:22Z) - VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion [11.744161087213703]
ロボットグルーピングのための低計算量・高精度モデルVMGNetを提案する。
まず,視覚状態空間をロボットの把握領域に導入し,線形計算複雑性を実現する。
モデルの精度を向上させるために,効率よく軽量なマルチスケール機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:07:17Z) - Residual Multi-Task Learner for Applied Ranking [11.774841918446137]
ResFlowは、効率的なクロスタスク情報共有を可能にする軽量なマルチタスク学習フレームワークである。
Shopee Searchのプレランクモジュールに完全にデプロイされている。
論文 参考訳(メタデータ) (2024-10-30T06:49:45Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Hulk: Graph Neural Networks for Optimizing Regionally Distributed
Computing Systems [9.187462935211427]
本稿では,修正グラフニューラルネットワークを用いて分散コンピューティングシステムを最適化するHulkという新しいソリューションを提案する。
実験でHulkを使用することで、分散システム上で大規模なディープラーニングモデルをトレーニングする時間の効率を20%以上向上することができたのです。
論文 参考訳(メタデータ) (2023-02-27T13:06:58Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - CodeReef: an open platform for portable MLOps, reusable automation
actions and reproducible benchmarking [0.2148535041822524]
CodeReef - クロスプラットフォームMLOps(MLSysOps)を実現するために必要なすべてのコンポーネントを共有するオープンプラットフォームを提供する。
CodeReefソリューションも導入しています – 非仮想化、ポータブル、カスタマイズ可能なアーカイブファイルとしてモデルをパッケージ化し、共有する手段です。
論文 参考訳(メタデータ) (2020-01-22T09:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。