論文の概要: An Efficient Training Pipeline for Reasoning Graphical User Interface Agents
- arxiv url: http://arxiv.org/abs/2511.08172v3
- Date: Fri, 14 Nov 2025 07:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:01.973635
- Title: An Efficient Training Pipeline for Reasoning Graphical User Interface Agents
- Title(参考訳): グラフィカルユーザインタフェースエージェントの推論のための効率的な学習パイプライン
- Authors: Georgios Pantazopoulos, Eda B. Özyiğit,
- Abstract要約: この作業では,モデルベースのデータフィルタリングとパラメータ効率のよい微調整を組み合わせた,効率的なトレーニングパイプラインを導入している。
4.8Mの合成例から、1Kのクリーンで多様なインスタンスは、まず難しいケースを特定し、不整合を取り除き、多様なマルチモーダルインスタンスを選択してキュレートされる。
フィルタリングされたデータと軽量なトレーニング戦略でトレーニングされたモデルは、ScreenSpot、Multimodal-Mind2Web、AndroidControlなどのベンチマークで、より大きなベースラインにマッチするか、超える。
- 参考スコア(独自算出の注目度): 2.553589584067239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding is the task of localising image regions from natural language queries and is critical for reasoning capable Graphical User Interface agents. Many existing methods rely on massive, noisy synthetic datasets. This work introduces an efficient training pipeline that combines model-based data filtering with parameter-efficient fine-tuning. From 4.8M synthetic examples, 12K clean and diverse instances are curated by first identifying challenging cases, removing misaligned and then selecting a diverse set of multimodal instances. On this data, a 3B-parameter Vision-Language Model is trained under three regimes: supervised fine-tuning, chain-of-thought-augmented fine-tuning, and reinforcement learning via Group Relative Policy Optimization. Models trained with the filtered data and lightweight training strategies match or surpass larger baselines on benchmarks such as ScreenSpot, Multimodal-Mind2Web, and AndroidControl. These results demonstrate that principled data curation and robust adaptation can rival large-scale training, enabling compact yet capable multimodal reasoning agents.
- Abstract(参考訳): ビジュアルグラウンドティングは、自然言語クエリからイメージ領域をローカライズするタスクであり、グラフィックユーザインタフェースエージェントの推論に不可欠である。
既存の多くの手法は、巨大でノイズの多い合成データセットに依存している。
この作業では,モデルベースのデータフィルタリングとパラメータ効率のよい微調整を組み合わせた,効率的なトレーニングパイプラインを導入している。
4.8Mの合成例から、1Kのクリーンで多様なインスタンスは、まず難しいケースを特定し、不整合を取り除き、多様なマルチモーダルインスタンスを選択してキュレートされる。
このデータに基づいて、3Bパラメータ・ビジョン・ランゲージ・モデル(英語版)は、教師付き微調整(英語版)、連鎖型微調整(英語版)、グループ相対政策最適化(英語版)による強化学習(英語版)の3つの体制の下で訓練される。
フィルタリングされたデータと軽量なトレーニング戦略でトレーニングされたモデルは、ScreenSpot、Multimodal-Mind2Web、AndroidControlなどのベンチマークで、より大きなベースラインにマッチするか、超える。
これらの結果は、データキュレーションとロバストな適応が大規模学習と競合し、コンパクトで有能なマルチモーダル推論エージェントを実現することを実証している。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。
私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文 参考訳(メタデータ) (2025-07-17T03:08:26Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Cross-Modal Adapter for Vision-Language Retrieval [60.59577149733934]
パラメータ効率の伝達学習のためのクロスモーダル適応器を提案する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
提案手法には,(1)微調整パラメータの大部分の削減,(2)トレーニング時間の短縮,(3)事前学習パラメータの修正,という3つの特長がある。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。