論文の概要: Mapping Natural Language Instructions to Mobile UI Action Sequences
- arxiv url: http://arxiv.org/abs/2005.03776v2
- Date: Fri, 5 Jun 2020 02:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:28:56.613417
- Title: Mapping Natural Language Instructions to Mobile UI Action Sequences
- Title(参考訳): 自然言語命令をモバイルuiアクションシーケンスにマッピングする
- Authors: Yang Li and Jiacong He and Xin Zhou and Yuan Zhang and Jason Baldridge
- Abstract要約: 我々は,モバイルユーザインタフェースアクションに対する自然言語命令の接地という,新しい問題を提示した。
PIXELHELPは、英語の命令と、モバイルUIエミュレータ上で人によって実行されるアクションをペアリングするコーパスである。
トレーニングの規模を拡大するために、(a)ハウツー命令に記入するアクションフレーズと(b)モバイルユーザインタフェースのアクションの基底記述を合成することにより、言語とアクションデータを分離する。
- 参考スコア(独自算出の注目度): 17.393816815196974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new problem: grounding natural language instructions to mobile
user interface actions, and create three new datasets for it. For full task
evaluation, we create PIXELHELP, a corpus that pairs English instructions with
actions performed by people on a mobile UI emulator. To scale training, we
decouple the language and action data by (a) annotating action phrase spans in
HowTo instructions and (b) synthesizing grounded descriptions of actions for
mobile user interfaces. We use a Transformer to extract action phrase tuples
from long-range natural language instructions. A grounding Transformer then
contextually represents UI objects using both their content and screen position
and connects them to object descriptions. Given a starting screen and
instruction, our model achieves 70.59% accuracy on predicting complete
ground-truth action sequences in PIXELHELP.
- Abstract(参考訳): 新しい問題として、モバイルユーザインタフェースアクションに自然言語命令を接地し、3つの新しいデータセットを作成する。
PIXELHELPは、英語の指示と、モバイルUIエミュレータ上で人によって実行されるアクションをペア化するコーパスである。
トレーニングをスケールするために 言語と行動データを分離し
(a)ハウツーの指示に係わる動作句の注釈
(b)モバイルユーザインタフェースにおけるアクションの基底記述を合成する。
長距離自然言語命令から動作句タプルを抽出するためにトランスフォーマーを用いる。
グラウンドングトランスフォーマーは、そのコンテンツと画面位置の両方を使って、コンテキスト的にUIオブジェクトを表現し、オブジェクト記述に接続する。
スタート画面と命令が与えられた場合,pixelhelp のグランド・ルート・アクションシーケンスの予測精度は 70.59% である。
関連論文リスト
- LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Training a Vision Language Model as Smartphone Assistant [1.3654846342364308]
モバイルデバイス上で多様なタスクをこなせる視覚言語モデル(VLM)を提案する。
私たちのモデルはユーザインターフェース(UI)のみと対話することで機能します。
従来の手法とは異なり、我々のモデルは単一の画面画像だけでなく、過去のスクリーンショットのシーケンスから生成された視覚言語文でも動作する。
論文 参考訳(メタデータ) (2024-04-12T18:28:44Z) - MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [8.050271017133076]
MotionScriptはモーション・トゥ・テキスト変換アルゴリズムであり、人体の動きの自然言語表現である。
実験により、テキスト・トゥ・モーションタスクに適用されたMotionScript記述により、大規模な言語モデルが、以前は目に見えなかった複雑な動作を生成できることが実証された。
論文 参考訳(メタデータ) (2023-12-19T22:33:17Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Natural Language Robot Programming: NLP integrated with autonomous
robotic grasping [1.7045152415056037]
本稿では,ロボットプログラミングのための文法に基づく自然言語フレームワークについて述べる。
私たちのアプローチでは、意味を共有する単語をまとめて格納するために設計された、アクションワードのカスタム辞書を使用します。
我々は、Franka Pandaロボットアームを用いて、シミュレーションと実世界の実験を通して、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2023-04-06T11:06:30Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。