論文の概要: Grounded Language Learning Fast and Slow
- arxiv url: http://arxiv.org/abs/2009.01719v4
- Date: Wed, 14 Oct 2020 14:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 06:48:58.142868
- Title: Grounded Language Learning Fast and Slow
- Title(参考訳): 地すべり言語学習の迅速・低速化
- Authors: Felix Hill, Olivier Tieleman, Tamara von Glehn, Nathaniel Wong, Hamza
Merzic, Stephen Clark
- Abstract要約: 本研究では,従来の強化学習アルゴリズムを用いて訓練すると,実施エージェントが類似したワンショット単語学習を行うことができることを示す。
特定の訓練条件下では、エージェントのワンショットワードオブジェクト結合は、同じShapeNetカテゴリ内の新しい例に一般化される。
さらに、二重符号化メモリを本質的なモチベーションの信号として利用し、エージェントが後続の命令を実行するのに有用なオブジェクトの名前を検索するように促す方法を示す。
- 参考スコア(独自算出の注目度): 23.254765095715054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that large text-based neural language models, trained
with conventional supervised learning objectives, acquire a surprising
propensity for few- and one-shot learning. Here, we show that an embodied agent
situated in a simulated 3D world, and endowed with a novel dual-coding external
memory, can exhibit similar one-shot word learning when trained with
conventional reinforcement learning algorithms. After a single introduction to
a novel object via continuous visual perception and a language prompt ("This is
a dax"), the agent can re-identify the object and manipulate it as instructed
("Put the dax on the bed"). In doing so, it seamlessly integrates short-term,
within-episode knowledge of the appropriate referent for the word "dax" with
long-term lexical and motor knowledge acquired across episodes (i.e. "bed" and
"putting"). We find that, under certain training conditions and with a
particular memory writing mechanism, the agent's one-shot word-object binding
generalizes to novel exemplars within the same ShapeNet category, and is
effective in settings with unfamiliar numbers of objects. We further show how
dual-coding memory can be exploited as a signal for intrinsic motivation,
stimulating the agent to seek names for objects that may be useful for later
executing instructions. Together, the results demonstrate that deep neural
networks can exploit meta-learning, episodic memory and an explicitly
multi-modal environment to account for 'fast-mapping', a fundamental pillar of
human cognitive development and a potentially transformative capacity for
agents that interact with human users.
- Abstract(参考訳): 最近の研究は、従来の教師付き学習目標で訓練された大きなテキストベースのニューラル言語モデルが、数対1の学習において驚くべき確率を得ることを示した。
そこで本研究では,シミュレーションされた3次元世界に位置する具体化エージェントが,従来の強化学習アルゴリズムで学習すると,類似したワンショットワード学習を示すことができることを示す。
連続的な視覚知覚と言語プロンプト("this is a dax")による新しい物体への単一の導入の後、エージェントはオブジェクトを再識別し、指示通りに操作することができる("put the dax on the bed")。
その際、"dax"という単語の適切な参照者の短期的・内部的知識と、エピソード(つまり「ベッド」と「パッティング」)間で得られる長期的な語彙的・運動的知識とをシームレスに統合する。
特定の訓練条件と特定のメモリ書き込み機構により、エージェントのワンショットワードオブジェクトバインディングは、同一のShapeNetカテゴリ内の新しい例に一般化され、不慣れなオブジェクト数の設定に有効であることがわかった。
さらに,デュアルコーディングメモリを本質的モチベーションのシグナルとして活用し,エージェントに後から実行される命令に有用なオブジェクトの名前を求めるように促す方法を示した。
その結果,深層ニューラルネットワークは,メタラーニング,エピソディクスメモリ,明示的なマルチモーダル環境を利用して,人間の認知発達の基本柱である「高速マッピング」や,人間のユーザと相互作用するエージェントの潜在的変換能力を考慮することができることが示された。
関連論文リスト
- ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - An iterated learning model of language change that mixes supervised and unsupervised learning [0.0]
反復学習モデルは、世代から世代への言語の伝達をシミュレートするエージェントモデルである。
各イテレーションにおいて、言語家庭教師は、ナイーブな瞳孔を限られた発話の訓練セットに公開し、それぞれがランダムな意味とそれを伝達する信号とをペアリングする。
送信ボトルネックは、チューターが経験したトレーニングセットを超えて一般化する必要があることを保証します。
論文 参考訳(メタデータ) (2024-05-31T14:14:01Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Intra-agent speech permits zero-shot task acquisition [13.19051572784014]
ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。
我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。
我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
論文 参考訳(メタデータ) (2022-06-07T09:28:10Z) - Fast Concept Mapping: The Emergence of Human Abilities in Artificial
Neural Networks when Learning Embodied and Self-Supervised [0.0]
本稿では,人工エージェントが自己教師による探索を通じて,まず模擬世界で学習する仕組みを提案する。
我々は、ニューロンの相関した発火パターンを用いて意味概念を定義し、検出する高速概念マッピングと呼ばれる手法を用いる。
論文 参考訳(メタデータ) (2021-02-03T17:19:49Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。