論文の概要: Grounding Language to Autonomously-Acquired Skills via Goal Generation
- arxiv url: http://arxiv.org/abs/2006.07185v3
- Date: Mon, 25 Jan 2021 15:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:04:51.704734
- Title: Grounding Language to Autonomously-Acquired Skills via Goal Generation
- Title(参考訳): ゴール生成による自律獲得スキルへの接地言語
- Authors: Ahmed Akakzia, C\'edric Colas, Pierre-Yves Oudeyer, Mohamed Chetouani,
Olivier Sigaud
- Abstract要約: 言語条件付きRLに対する新しい概念的アプローチ:LGB(Language-Goal-Behavior Architecture)を提案する。
LGBは、世界の中間的な意味表現を通じて、スキル学習と言語基盤を分離する。
本稿では,物体間の空間的関係を記述した本質的な意味表現を具現化した,本質的な動機づけ型学習エージェントDECSTRを提案する。
- 参考スコア(独自算出の注目度): 23.327749767424567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in the autonomous acquisition of repertoires of skills.
Language-conditioned reinforcement learning (LC-RL) approaches are great tools
in this quest, as they allow to express abstract goals as sets of constraints
on the states. However, most LC-RL agents are not autonomous and cannot learn
without external instructions and feedback. Besides, their direct language
condition cannot account for the goal-directed behavior of pre-verbal infants
and strongly limits the expression of behavioral diversity for a given language
input. To resolve these issues, we propose a new conceptual approach to
language-conditioned RL: the Language-Goal-Behavior architecture (LGB). LGB
decouples skill learning and language grounding via an intermediate semantic
representation of the world. To showcase the properties of LGB, we present a
specific implementation called DECSTR. DECSTR is an intrinsically motivated
learning agent endowed with an innate semantic representation describing
spatial relations between physical objects. In a first stage (G -> B), it
freely explores its environment and targets self-generated semantic
configurations. In a second stage (L -> G), it trains a language-conditioned
goal generator to generate semantic goals that match the constraints expressed
in language-based inputs. We showcase the additional properties of LGB w.r.t.
both an end-to-end LC-RL approach and a similar approach leveraging
non-semantic, continuous intermediate representations. Intermediate semantic
representations help satisfy language commands in a diversity of ways, enable
strategy switching after a failure and facilitate language grounding.
- Abstract(参考訳): 私たちはスキルのレパートリーを自律的に取得することに興味があります。
言語条件強化学習(LC-RL)アプローチは、国家の制約の集合として抽象的な目標を表現できるので、この探求において優れたツールである。
しかし、ほとんどのLC-RLエージェントは自律的ではなく、外部からの指示やフィードバックなしでは学習できない。
さらに、それらの直接的な言語状態は、言語前幼児の目標指向行動は説明できず、与えられた言語入力に対する行動の多様性の表現を強く制限する。
これらの問題を解決するために,言語条件付きRL(Language-Goal-Behavior Architecture, LGB)の概念的アプローチを提案する。
LGBは、世界の中間的な意味表現を通じて、スキル学習と言語基盤を分離する。
LGBの特性を示すために,DECSTRと呼ばれる特定の実装を提案する。
DECSTRは、物理的オブジェクト間の空間的関係を記述する本質的な意味表現を備えた、本質的に動機付けられた学習エージェントである。
第1段階(g -> b)では、環境を自由に探索し、自己生成したセマンティクス構成をターゲットとする。
第2段階(L -> G)では、言語ベースの入力で表現される制約にマッチするセマンティックな目標を生成するために、言語条件のゴールジェネレータを訓練する。
我々は、LGB w.r.t. の終端LC-RLアプローチと、非意味的、連続的な中間表現を利用した同様のアプローチの両方の付加特性を示す。
中間的なセマンティック表現は、さまざまな方法で言語コマンドを満足させ、失敗後の戦略変更を可能にし、言語接地を容易にする。
関連論文リスト
- Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - ReferentialGym: A Nomenclature and Framework for Language Emergence &
Grounding in (Visual) Referential Games [0.30458514384586394]
自然言語は、人間が情報を伝達し、共通の目標に向けて協力するための強力なツールである。
計算言語学者は、言語ゲームによって引き起こされる人工言語の出現を研究している。
AIコミュニティは、言語の出現と、より優れたヒューマンマシンインターフェースに向けた基礎研究を開始した。
論文 参考訳(メタデータ) (2020-12-17T10:22:15Z) - Inverse Reinforcement Learning with Natural Language Goals [8.972202854038382]
言語条件付きポリシーと報酬関数を学習するための新しい逆強化学習アルゴリズムを提案する。
提案アルゴリズムは,視覚に基づく自然言語によるデータセットの学習において,複数のベースラインをはるかに上回る性能を示した。
論文 参考訳(メタデータ) (2020-08-16T14:43:49Z) - Language-Conditioned Goal Generation: a New Approach to Language
Grounding for RL [23.327749767424567]
現実の世界では、言語エージェントも具体的エージェントであり、それらは物理的な世界で知覚され、作用する。
本稿では,ゴールジェネレータの条件付けに言語を用いることを提案する。目標条件を考慮すれば,エージェントに対して言語に依存しない目標を生成するために,言語条件付きゴールジェネレータを訓練することができる。
論文 参考訳(メタデータ) (2020-06-12T09:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。