論文の概要: Android in the Wild: A Large-Scale Dataset for Android Device Control
- arxiv url: http://arxiv.org/abs/2307.10088v1
- Date: Wed, 19 Jul 2023 15:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:28:43.912262
- Title: Android in the Wild: A Large-Scale Dataset for Android Device Control
- Title(参考訳): Android in the Wild - Androidデバイスコントロールのための大規模データセット
- Authors: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy
Lillicrap
- Abstract要約: デバイス制御研究のためのデータセット、Android in the Wild (AITW) を提示する。
データセットには、画面やアクションを含むデバイスインタラクションの人間によるデモと、対応する自然言語命令が含まれている。
30kのユニークな命令、Androidの4つのバージョン(v10-13)、そして8つのデバイスタイプ(Pixel 2 XLからPixel 6)にまたがる715kのエピソードで構成されている。
- 参考スコア(独自算出の注目度): 3.5383689677711443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in device-control systems that can interpret
human natural language instructions and execute them on a digital device by
directly controlling its user interface. We present a dataset for
device-control research, Android in the Wild (AITW), which is orders of
magnitude larger than current datasets. The dataset contains human
demonstrations of device interactions, including the screens and actions, and
corresponding natural language instructions. It consists of 715k episodes
spanning 30k unique instructions, four versions of Android (v10-13),and eight
device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It
contains multi-step tasks that require semantic understanding of language and
visual context. This dataset poses a new challenge: actions available through
the user interface must be inferred from their visual appearance. And, instead
of simple UI element-based actions, the action space consists of precise
gestures (e.g., horizontal scrolls to operate carousel widgets). We organize
our dataset to encourage robustness analysis of device-control systems, i.e.,
how well a system performs in the presence of new task descriptions, new
applications, or new platform versions. We develop two agents and report
performance across the dataset. The dataset is available at
https://github.com/google-research/google-research/tree/master/android_in_the_wild.
- Abstract(参考訳): ユーザインタフェースを直接制御することで、人間の自然言語命令を解釈し、デジタルデバイス上で実行するデバイス制御システムへの関心が高まっている。
本稿では,デバイス制御研究のためのデータセットであるandroid in the wild (aitw)について述べる。
データセットには、画面やアクションを含むデバイスインタラクションの人間によるデモと、対応する自然言語命令が含まれている。
30kのユニークな命令と4種類のandroid(v10-13)、画面解像度の異なる8種類のデバイス(pixel 2 xlからpixel 6)で構成される。
言語と視覚的コンテキストの意味的理解を必要とするマルチステップタスクが含まれている。
ユーザインターフェースを通じて利用可能なアクションは、視覚的な外観から推測されなければなりません。
そして、単純なUI要素ベースのアクションの代わりに、アクション空間は正確なジェスチャー(カルーセルウィジェットを操作する水平スクロールなど)で構成される。
我々は、新しいタスク記述、新しいアプリケーション、または新しいプラットフォームバージョンの存在下で、システムがいかにうまく機能するかという、デバイス制御システムの堅牢性分析を促進するために、データセットを編成する。
2つのエージェントを開発し、データセット全体のパフォーマンスを報告する。
データセットはhttps://github.com/google-research/google-research/tree/master/android_in_the_wildで利用可能である。
関連論文リスト
- AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - Nymeria: A Massive Collection of Multimodal Egocentric Daily Motion in the Wild [66.34146236875822]
ニメリアデータセット(Nymeria dataset)は、複数のマルチモーダル・エゴセントリックなデバイスで野生で収集された、大規模で多様な、多彩な注釈付けされた人間のモーションデータセットである。
合計で399Kmを走行し、50か所にわたる264人の参加者から毎日300時間の録音を1200件記録している。
動作言語記述は、語彙サイズ6545の8.64万語で310.5K文を提供する。
論文 参考訳(メタデータ) (2024-06-14T10:23:53Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - A Pairwise Dataset for GUI Conversion and Retrieval between Android
Phones and Tablets [24.208087862974033]
Paptデータセットは、Androidスマートフォンとタブレット間のGUI変換と検索のためのペアワイズデータセットである。
データセットには5,593の電話-タブレットアプリペアから10,035の電話-タブレットGUIページペアが含まれている。
論文 参考訳(メタデータ) (2023-07-25T03:25:56Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - Intent Detection with WikiHow [28.28719498563396]
私たちのモデルは、wikiHowでトレーニングされているため、多くのアクションから幅広い目的を予測できます。
我々のモデルは、Snipsデータセット、Guided Dialogueデータセット、およびFacebookの多言語ダイアログデータセットの3つの言語で最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-12T12:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - Mapping Natural Language Instructions to Mobile UI Action Sequences [17.393816815196974]
我々は,モバイルユーザインタフェースアクションに対する自然言語命令の接地という,新しい問題を提示した。
PIXELHELPは、英語の命令と、モバイルUIエミュレータ上で人によって実行されるアクションをペアリングするコーパスである。
トレーニングの規模を拡大するために、(a)ハウツー命令に記入するアクションフレーズと(b)モバイルユーザインタフェースのアクションの基底記述を合成することにより、言語とアクションデータを分離する。
論文 参考訳(メタデータ) (2020-05-07T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。