論文の概要: On the Effects of Data Scale on UI Control Agents
- arxiv url: http://arxiv.org/abs/2406.03679v5
- Date: Mon, 04 Nov 2024 21:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:13.341037
- Title: On the Effects of Data Scale on UI Control Agents
- Title(参考訳): データスケールがUI制御エージェントに及ぼす影響について
- Authors: Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala, Divya Tyamagundlu, Oriana Riva,
- Abstract要約: 我々は,ファインチューニング単独が現実のコンピュータ制御エージェント構築の有効なアプローチであるかどうかを考察する。
新しいデータセットであるAndroidControlをリリースし、Androidアプリによる日々のタスクのデモ15,283件で構成されています。
ドメインを微調整したモデルでテストすると、ゼロと数ショットのベースラインを上回り、ロバストなパフォーマンスを単純により多くのデータを収集して得られるようにスケールすることがわかった。
- 参考スコア(独自算出の注目度): 4.126166118559238
- License:
- Abstract: Autonomous agents that control computer interfaces to accomplish human tasks are emerging. Leveraging LLMs to power such agents has been of special interest, but unless fine-tuned on human-collected task demonstrations, performance is still relatively low. In this work we study whether fine-tuning alone is a viable approach for building real-world computer control agents. In particularly, we investigate how performance measured on both high and low-level tasks in domain and out of domain scales as more training data is collected. To this end we collect and release a new dataset, AndroidControl, consisting of 15,283 demonstrations of everyday tasks with Android apps. Compared to existing datasets, each AndroidControl task instance includes both high and low-level human-generated instructions, allowing us to explore the level of task complexity an agent can handle. Moreover, AndroidControl is the most diverse computer control dataset to date, including 14,548 unique tasks over 833 Android apps, thus allowing us to conduct in-depth analysis of the model performance in and out of the domain of the training data. Using the dataset, we find that when tested in domain fine-tuned models outperform zero and few-shot baselines and scale in such a way that robust performance might feasibly be obtained simply by collecting more data. Out of domain, performance scales significantly more slowly and suggests that in particular for high-level tasks, fine-tuning on more data alone may be insufficient for achieving robust out-of-domain performance.
- Abstract(参考訳): 人間のタスクを達成するためにコンピュータインターフェースを制御する自律エージェントが登場している。
LLMをこのようなエージェントに利用することは特に興味深いが、人間によるタスクのデモを微調整しない限り、性能は比較的低い。
本研究では,ファインチューニング単独が現実のコンピュータ制御エージェント構築に有効なアプローチであるかどうかを考察する。
特に、ドメイン内のハイレベルタスクとローレベルタスクの両方で測定されたパフォーマンスが、より多くのトレーニングデータが収集されるにつれて、ドメインスケール外に与える影響について検討する。
この目的のために、Androidアプリで毎日のタスクを15,283回デモする新しいデータセット、AndroidControlを収集、リリースしました。
既存のデータセットと比較して、各AndroidControlタスクインスタンスには、ハイレベルとローレベルの両方のヒューマン生成命令が含まれています。
さらに、AndroidControlは833のAndroidアプリに対して14,548のユニークなタスクを含む、これまでで最も多様なコンピュータ制御データセットです。
データセットを用いて、ドメインを微調整したモデルでテストすると、ゼロと数ショットのベースラインを上回り、ロバストなパフォーマンスを単純により多くのデータを収集して得られるようにスケールする。
ドメイン外では、パフォーマンスは大幅に遅くなり、特にハイレベルなタスクでは、より多くのデータのみを微調整することは、ドメイン外での堅牢なパフォーマンスを達成するには不十分である、と示唆する。
関連論文リスト
- Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Unified machine learning tasks and datasets for enhancing renewable
energy [0.8356833388425764]
ETT-17(Energy Transition Tasks-17)は再生可能エネルギーの増強に関連する17のデータセットの集合である。
すべてのタスクとデータセットを統一し、単一のマルチタスクMLモデルで解決できるようにします。
論文 参考訳(メタデータ) (2023-11-12T15:30:44Z) - STG-MTL: Scalable Task Grouping for Multi-Task Learning Using Data Map [4.263847576433289]
MTL(Multi-Task Learning)は、従来のSTL(Single-Task Learning)よりも性能が向上し、普及した強力な技術である。
しかし、MTLは指数的なタスクグルーピング数が多いため、しばしば困難である。
本稿では,これらの課題に対処し,課題分類のためのスケーラブルでモジュール化されたソリューションを提供する新しいデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2023-07-07T03:54:26Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Large Scale Real-World Multi-Person Tracking [68.27438015329807]
本稿では,新しい大規模多人数追跡データセットであるtexttPersonPath22を提案する。
MOT17、HiEve、MOT20などの高品質なマルチオブジェクト追跡データセットよりも桁違いに大きい。
論文 参考訳(メタデータ) (2022-11-03T23:03:13Z) - Boosting Supervised Learning Performance with Co-training [15.986635379046602]
我々は,教師付き学習性能を最小限のコストで向上させることができる,軽量な自己教師付き学習フレームワークを提案する。
以上の結果から,両タスクとも教師付きタスクの精度が向上し,ドメイン適応能力が向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-18T17:01:17Z) - Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain
Datasets [122.85598648289789]
マルチドメインとマルチタスクのデータセットが、新しい環境における新しいタスクの学習を改善する方法について検討する。
また、新しいドメイン内の少数のタスクのみのデータによって、ドメインギャップを埋めることができ、ロボットが他のドメインでしか見られなかったさまざまなタスクを実行できることもわかりました。
論文 参考訳(メタデータ) (2021-09-27T23:42:12Z) - SelfHAR: Improving Human Activity Recognition through Self-training with
Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。
提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。
SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-02-11T15:40:35Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。