論文の概要: Intra-agent speech permits zero-shot task acquisition
- arxiv url: http://arxiv.org/abs/2206.03139v1
- Date: Tue, 7 Jun 2022 09:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:48:13.458877
- Title: Intra-agent speech permits zero-shot task acquisition
- Title(参考訳): エージェント内音声がゼロショットタスクの獲得を許可
- Authors: Chen Yan, Federico Carnevale, Petko Georgiev, Adam Santoro, Aurelia
Guy, Alistair Muldal, Chia-Chun Hung, Josh Abramson, Timothy Lillicrap,
Gregory Wayne
- Abstract要約: ヒトの「インナースピーチ」のプロセスからインスピレーションを得て、具体的行動におけるエージェント内スピーチの役割をよりよく理解する。
我々は、ほとんどラベル付き言語データによる視覚的接頭字幕作成を可能にするアルゴリズムを開発した。
我々は,3次元仮想世界で動作している体現型移動マニピュレータエージェントにエージェント内音声を組み込む。
- 参考スコア(独自算出の注目度): 13.19051572784014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human language learners are exposed to a trickle of informative,
context-sensitive language, but a flood of raw sensory data. Through both
social language use and internal processes of rehearsal and practice, language
learners are able to build high-level, semantic representations that explain
their perceptions. Here, we take inspiration from such processes of "inner
speech" in humans (Vygotsky, 1934) to better understand the role of intra-agent
speech in embodied behavior. First, we formally pose intra-agent speech as a
semi-supervised problem and develop two algorithms that enable visually
grounded captioning with little labeled language data. We then experimentally
compute scaling curves over different amounts of labeled data and compare the
data efficiency against a supervised learning baseline. Finally, we incorporate
intra-agent speech into an embodied, mobile manipulator agent operating in a 3D
virtual world, and show that with as few as 150 additional image captions,
intra-agent speech endows the agent with the ability to manipulate and answer
questions about a new object without any related task-directed experience
(zero-shot). Taken together, our experiments suggest that modelling intra-agent
speech is effective in enabling embodied agents to learn new tasks efficiently
and without direct interaction experience.
- Abstract(参考訳): 人間の言語学習者は、情報的かつ文脈に敏感な言語に晒されているが、生の知覚データが溢れている。
社会的言語の使用とリハーサルと実践の内部プロセスの両方を通じて、言語学習者は自身の認識を説明する高レベルでセマンティックな表現を構築することができる。
そこで本研究では,人間におけるインナースピーチ(Vygotsky,1934)のプロセスからインスピレーションを得て,実施行動におけるエージェント内スピーチの役割をよりよく理解する。
まず, エージェント内音声を半教師付き問題として用い, ラベル付き言語データによる視覚的接頭字幕作成が可能な2つのアルゴリズムを開発した。
次に、異なるラベル付きデータのスケーリング曲線を実験的に計算し、データ効率を教師付き学習ベースラインと比較する。
最後に,3次元仮想空間で動作する組込み型移動マニピュレータエージェントにエージェント内音声を組み込んで,150以上の画像キャプションを付加することで,エージェントにタスク指向体験(ゼロショット)を伴わずに,新たなオブジェクトに関する質問を操作・回答する能力(ゼロショット)を付与することを示す。
実験結果から,エージェントが直接の対話経験を必要とせず,効果的に新しいタスクを学習できることが示唆された。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Self-play for Data Efficient Language Acquisition [20.86261546611472]
学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。
直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
論文 参考訳(メタデータ) (2020-10-10T02:09:19Z) - Grounded Language Learning Fast and Slow [23.254765095715054]
本研究では,従来の強化学習アルゴリズムを用いて訓練すると,実施エージェントが類似したワンショット単語学習を行うことができることを示す。
特定の訓練条件下では、エージェントのワンショットワードオブジェクト結合は、同じShapeNetカテゴリ内の新しい例に一般化される。
さらに、二重符号化メモリを本質的なモチベーションの信号として利用し、エージェントが後続の命令を実行するのに有用なオブジェクトの名前を検索するように促す方法を示す。
論文 参考訳(メタデータ) (2020-09-03T14:52:03Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。