論文の概要: Grounding Spatio-Temporal Language with Transformers
- arxiv url: http://arxiv.org/abs/2106.08858v1
- Date: Wed, 16 Jun 2021 15:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:49:06.881203
- Title: Grounding Spatio-Temporal Language with Transformers
- Title(参考訳): 変圧器を用いた接地時空間言語
- Authors: Tristan Karch, Laetitia Teodorescu, Katja Hofmann, Cl\'ement
Moulin-Frier and Pierre-Yves Oudeyer
- Abstract要約: 具体的エージェントの行動トレースの意味を学習するために,新しい時間的言語タスクを導入する。
これは、ある記述が与えられた観測履歴と一致するかどうかを予測する関数を訓練することによって達成される。
このタスクにおけるアーキテクチャ一般化の役割を研究するために,マルチモーダルトランスフォーマーアーキテクチャを含むいくつかのモデルを訓練する。
- 参考スコア(独自算出の注目度): 22.46291815734606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language is an interface to the outside world. In order for embodied agents
to use it, language must be grounded in other, sensorimotor modalities. While
there is an extended literature studying how machines can learn grounded
language, the topic of how to learn spatio-temporal linguistic concepts is
still largely uncharted. To make progress in this direction, we here introduce
a novel spatio-temporal language grounding task where the goal is to learn the
meaning of spatio-temporal descriptions of behavioral traces of an embodied
agent. This is achieved by training a truth function that predicts if a
description matches a given history of observations. The descriptions involve
time-extended predicates in past and present tense as well as spatio-temporal
references to objects in the scene. To study the role of architectural biases
in this task, we train several models including multimodal Transformer
architectures; the latter implement different attention computations between
words and objects across space and time. We test models on two classes of
generalization: 1) generalization to randomly held-out sentences; 2)
generalization to grammar primitives. We observe that maintaining object
identity in the attention computation of our Transformers is instrumental to
achieving good performance on generalization overall, and that summarizing
object traces in a single token has little influence on performance. We then
discuss how this opens new perspectives for language-guided autonomous embodied
agents. We also release our code under open-source license as well as
pretrained models and datasets to encourage the wider community to build upon
and extend our work in the future.
- Abstract(参考訳): 言語は外界へのインタフェースである。
具体化エージェントがそれを使用するためには、言語を他のセンサーモジュレータのモダリティに基づかなければならない。
機械がどのように接地言語を学べるかを研究する広範な文献があるが、時空間言語の概念をいかに学ぶかという話題は、いまだにほとんど語られていない。
そこで,本稿では,具体化エージェントの行動トレースの時空間的記述の意味を学習することを目的とした,新たな時空間言語基底化タスクを提案する。
これは、記述が与えられた観測履歴と一致するかどうかを予測する真理関数を訓練することによって達成される。
記述には、過去と現在における時間拡張述語と、シーン内のオブジェクトに対する時空間的参照が含まれる。
このタスクにおけるアーキテクチャバイアスの役割を研究するために,マルチモーダルトランスフォーマーアーキテクチャを含む複数のモデルを訓練する。
1)ランダムに保持された文への一般化,2)文法プリミティブへの一般化である。
我々は,トランスフォーマーの注目計算におけるオブジェクトの同一性を維持することは,全体の一般化において優れた性能を達成するのに有効であり,単一トークンにおけるオブジェクトトレースの要約が性能にほとんど影響を与えないことを観察する。
次に, 言語誘導型自律型実施エージェントに対する新たな視点の開放について論じる。
また、私たちのコードをオープンソースライセンスの下でリリースし、トレーニング済みのモデルやデータセットもリリースしています。
関連論文リスト
- Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics [25.2461925479135]
Video-Language Criticは、簡単に利用可能なクロスボディデータに基づいてトレーニングできる報酬モデルである。
我々のモデルは、スパース報酬のみよりもメタワールドタスクにおける2倍のサンプル効率のポリシートレーニングを可能にします。
論文 参考訳(メタデータ) (2024-05-30T12:18:06Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Temporal Attention for Language Models [24.34396762188068]
本稿では,トランスアーキテクチャのキーコンポーネントである自己注意機構を拡張し,時間的注意を喚起する。
時間的注意は、任意のトランスモデルに適用することができ、入力テキストに関連する時間ポイントを添付する必要がある。
我々はこれらの表現を意味変化検出のタスクに活用する。
提案したモデルでは,すべてのデータセットに対して最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-02-04T11:55:34Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。