Fugu-MT 論文翻訳(概要): Grounded Language Learning Fast and Slow

論文の概要: Grounded Language Learning Fast and Slow

arxiv url: http://arxiv.org/abs/2009.01719v4
Date: Wed, 14 Oct 2020 14:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-22 06:48:58.142868
Title: Grounded Language Learning Fast and Slow
Title（参考訳）: 地すべり言語学習の迅速・低速化
Authors: Felix Hill, Olivier Tieleman, Tamara von Glehn, Nathaniel Wong, Hamza Merzic, Stephen Clark
Abstract要約: 本研究では,従来の強化学習アルゴリズムを用いて訓練すると,実施エージェントが類似したワンショット単語学習を行うことができることを示す。特定の訓練条件下では、エージェントのワンショットワードオブジェクト結合は、同じShapeNetカテゴリ内の新しい例に一般化される。さらに、二重符号化メモリを本質的なモチベーションの信号として利用し、エージェントが後続の命令を実行するのに有用なオブジェクトの名前を検索するように促す方法を示す。
参考スコア（独自算出の注目度）: 23.254765095715054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has shown that large text-based neural language models, trained with conventional supervised learning objectives, acquire a surprising propensity for few- and one-shot learning. Here, we show that an embodied agent situated in a simulated 3D world, and endowed with a novel dual-coding external memory, can exhibit similar one-shot word learning when trained with conventional reinforcement learning algorithms. After a single introduction to a novel object via continuous visual perception and a language prompt ("This is a dax"), the agent can re-identify the object and manipulate it as instructed ("Put the dax on the bed"). In doing so, it seamlessly integrates short-term, within-episode knowledge of the appropriate referent for the word "dax" with long-term lexical and motor knowledge acquired across episodes (i.e. "bed" and "putting"). We find that, under certain training conditions and with a particular memory writing mechanism, the agent's one-shot word-object binding generalizes to novel exemplars within the same ShapeNet category, and is effective in settings with unfamiliar numbers of objects. We further show how dual-coding memory can be exploited as a signal for intrinsic motivation, stimulating the agent to seek names for objects that may be useful for later executing instructions. Together, the results demonstrate that deep neural networks can exploit meta-learning, episodic memory and an explicitly multi-modal environment to account for 'fast-mapping', a fundamental pillar of human cognitive development and a potentially transformative capacity for agents that interact with human users.
Abstract（参考訳）: 最近の研究は、従来の教師付き学習目標で訓練された大きなテキストベースのニューラル言語モデルが、数対1の学習において驚くべき確率を得ることを示した。そこで本研究では,シミュレーションされた3次元世界に位置する具体化エージェントが,従来の強化学習アルゴリズムで学習すると,類似したワンショットワード学習を示すことができることを示す。連続的な視覚知覚と言語プロンプト("this is a dax")による新しい物体への単一の導入の後、エージェントはオブジェクトを再識別し、指示通りに操作することができる("put the dax on the bed")。その際、"dax"という単語の適切な参照者の短期的・内部的知識と、エピソード(つまり「ベッド」と「パッティング」)間で得られる長期的な語彙的・運動的知識とをシームレスに統合する。特定の訓練条件と特定のメモリ書き込み機構により、エージェントのワンショットワードオブジェクトバインディングは、同一のShapeNetカテゴリ内の新しい例に一般化され、不慣れなオブジェクト数の設定に有効であることがわかった。さらに,デュアルコーディングメモリを本質的モチベーションのシグナルとして活用し,エージェントに後から実行される命令に有用なオブジェクトの名前を求めるように促す方法を示した。その結果,深層ニューラルネットワークは,メタラーニング,エピソディクスメモリ,明示的なマルチモーダル環境を利用して,人間の認知発達の基本柱である「高速マッピング」や,人間のユーザと相互作用するエージェントの潜在的変換能力を考慮することができることが示された。

関連論文リスト

ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。 ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
An iterated learning model of language change that mixes supervised and unsupervised learning [0.0]
反復学習モデルは、世代から世代への言語の伝達をシミュレートするエージェントモデルである。各イテレーションにおいて、言語家庭教師は、ナイーブな瞳孔を限られた発話の訓練セットに公開し、それぞれがランダムな意味とそれを伝達する信号とをペアリングする。送信ボトルネックは、チューターが経験したトレーニングセットを超えて一般化する必要があることを保証します。
論文参考訳（メタデータ） (2024-05-31T14:14:01Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文参考訳（メタデータ） (2023-07-31T17:57:49Z)
Communication Drives the Emergence of Language Universals in Neural Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文参考訳（メタデータ） (2023-01-30T17:22:33Z)
Multi-Object Navigation with dynamically learned neural implicit representations [10.182418917501064]
本稿では,各エピソードにおいて動的に学習される2つのニューラル暗示表現を用いてニューラルネットワークを構築することを提案する。マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。
論文参考訳（メタデータ） (2022-10-11T04:06:34Z)
Pretraining on Interactions for Learning Grounded Affordance Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文参考訳（メタデータ） (2022-07-05T19:19:53Z)
Intra-agent speech permits zero-shot task acquisition [13.19051572784014]
ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
論文参考訳（メタデータ） (2022-06-07T09:28:10Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
Fast Concept Mapping: The Emergence of Human Abilities in Artificial Neural Networks when Learning Embodied and Self-Supervised [0.0]
本稿では,人工エージェントが自己教師による探索を通じて,まず模擬世界で学習する仕組みを提案する。我々は、ニューロンの相関した発火パターンを用いて意味概念を定義し、検出する高速概念マッピングと呼ばれる手法を用いる。
論文参考訳（メタデータ） (2021-02-03T17:19:49Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文参考訳（メタデータ） (2020-10-11T08:27:07Z)
COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文参考訳（メタデータ） (2020-07-14T19:04:08Z)
Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文参考訳（メタデータ） (2020-04-29T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。