論文の概要: Grounding Open-Domain Instructions to Automate Web Support Tasks
- arxiv url: http://arxiv.org/abs/2103.16057v1
- Date: Tue, 30 Mar 2021 04:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:13:38.441752
- Title: Grounding Open-Domain Instructions to Automate Web Support Tasks
- Title(参考訳): Web サポートタスクを自動化するためのオープンドメインインストラクション
- Authors: Nancy Xu, Sam Masling, Michael Du, Giovanni Campagna, Larry Heck,
James Landay, Monica S Lam
- Abstract要約: オープンドメインのステップバイステップ命令からaiエージェントをトレーニングするためのタスクとデータセットを導入する。
この問題に対処するために、RUSS(Rapid Universal Support Service)を構築します。
RUSSは2つのモデルから構成されています。1つは、Web上で自然言語を基盤とするドメイン固有言語であるThingTalkへの命令をポインタで解析するBERT-LSTMです。
- 参考スコア(独自算出の注目度): 5.042489934070664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding natural language instructions on the web to perform previously
unseen tasks enables accessibility and automation. We introduce a task and
dataset to train AI agents from open-domain, step-by-step instructions
originally written for people. We build RUSS (Rapid Universal Support Service)
to tackle this problem. RUSS consists of two models: First, a BERT-LSTM with
pointers parses instructions to ThingTalk, a domain-specific language we design
for grounding natural language on the web. Then, a grounding model retrieves
the unique IDs of any webpage elements requested in ThingTalk. RUSS may
interact with the user through a dialogue (e.g. ask for an address) or execute
a web operation (e.g. click a button) inside the web runtime. To augment
training, we synthesize natural language instructions mapped to ThingTalk. Our
dataset consists of 80 different customer service problems from help websites,
with a total of 741 step-by-step instructions and their corresponding actions.
RUSS achieves 76.7% end-to-end accuracy predicting agent actions from single
instructions. It outperforms state-of-the-art models that directly map
instructions to actions without ThingTalk. Our user study shows that RUSS is
preferred by actual users over web navigation.
- Abstract(参考訳): 自然言語命令をweb上で接地して、これまで見つからなかったタスクを実行することで、アクセシビリティと自動化が可能になる。
私たちは、AIエージェントをオープンドメインからトレーニングするためのタスクとデータセットを導入します。
我々はこの問題に対処するためにRAS(Rapid Universal Support Service)を構築します。
russ氏は2つのモデルから成り立っている。 まず、ポインタを持つbert-lstmが命令を thingtalkにパースする。
次に、グラウンドモデルがThingTalkで要求されたWebページ要素のユニークなIDを取得する。
RUSSは対話(例)を通じてユーザと対話する。
アドレスを要求する)、またはweb操作を実行する(例えば、)
Web ランタイム内のボタンをクリックします。
トレーニングを強化するために,ThingTalkにマップされた自然言語命令を合成する。
私たちのデータセットはヘルプサイトから80の異なるカスタマーサービス問題で構成されており、合計741のステップバイステップ命令とその対応アクションで構成されています。
RUSSは、単一の命令からエージェントアクションを予測するエンドツーエンドの精度76.7%を達成する。
ThingTalkを使わずに、指示を直接アクションにマップする最先端モデルよりも優れています。
ユーザ調査の結果,RASはWebナビゲーションよりも実際のユーザの方が望ましいことがわかった。
関連論文リスト
- Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。
我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。
本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文 参考訳(メタデータ) (2024-09-23T18:06:32Z) - Open-Ended Instructable Embodied Agents with Memory-Augmented Large
Language Models [19.594361652336996]
本稿では,言語プログラムペアの外部メモリを備えたエンボディエージェントであるHELPERを紹介する。
関連する記憶は、現在の対話、命令、修正、またはVLM記述に基づいて検索される。
HELPERは、ダイアログヒストリ(EDH)とトラジェクトリ(TfD)の両方でTEAChベンチマークに新しい最先端を設定している。
論文 参考訳(メタデータ) (2023-10-23T17:31:55Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。