論文の概要: Grounding Natural Language Instructions: Can Large Language Models
Capture Spatial Information?
- arxiv url: http://arxiv.org/abs/2109.08634v1
- Date: Fri, 17 Sep 2021 16:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 16:48:30.607132
- Title: Grounding Natural Language Instructions: Can Large Language Models
Capture Spatial Information?
- Title(参考訳): 接地型自然言語命令:大規模言語モデルは空間情報をキャプチャできるか?
- Authors: Julia Rozanova, Deborah Ferreira, Krishna Dubba, Weiwei Cheng, Dell
Zhang, Andre Freitas
- Abstract要約: この研究は、BERT、RoBERTa、LayoutLMの3つのトランスフォーマーベースモデルのグラウンドディング能力のテストと検証に重点を置いている。
学習された空間的特徴はUIの接地設定に転送可能であるように見える。
- 参考スコア(独自算出の注目度): 5.901374300255764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models designed for intelligent process automation are required to be capable
of grounding user interface elements. This task of interface element grounding
is centred on linking instructions in natural language to their target
referents. Even though BERT and similar pre-trained language models have
excelled in several NLP tasks, their use has not been widely explored for the
UI grounding domain. This work concentrates on testing and probing the
grounding abilities of three different transformer-based models: BERT, RoBERTa
and LayoutLM. Our primary focus is on these models' spatial reasoning skills,
given their importance in this domain. We observe that LayoutLM has a promising
advantage for applications in this domain, even though it was created for a
different original purpose (representing scanned documents): the learned
spatial features appear to be transferable to the UI grounding setting,
especially as they demonstrate the ability to discriminate between target
directions in natural language instructions.
- Abstract(参考訳): インテリジェントなプロセス自動化のために設計されたモデルは、ユーザーインターフェイス要素をグラウンド化できることが要求される。
このインタフェース要素の接地作業は、自然言語の命令を対象の参照元にリンクすることに集中する。
BERTや類似のトレーニング済み言語モデルは、いくつかのNLPタスクで優れているが、UIグラウンドドメインでは広く研究されていない。
この研究は、BERT、RoBERTa、LayoutLMの3つのトランスフォーマーベースモデルのグラウンドディング能力のテストと検証に重点を置いている。
私たちの主な焦点は、これらのモデルの空間的推論スキルである。
学習された空間機能は、特に自然言語命令でターゲットの方向を識別する能力を示すため、uiの接地設定に転送可能であるように見える。
関連論文リスト
- Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - Grounded Decoding: Guiding Text Generation with Grounded Models for
Embodied Agents [111.15288256221764]
グラウンデッドデコーディングプロジェクトは、両方のモデルの知識を活用することで、ロボット環境で複雑な長期タスクを解決することを目的としている。
我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。
本研究では,3つのシミュレーション領域と実世界の領域にまたがって,そのような基底モデルがどのように得られるのかを実証し,両モデルの知識を活用して,ロボット環境での複雑な長期的タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-01T22:58:50Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。