論文の概要: Compositional Instruction Following with Language Models and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.12539v1
- Date: Tue, 21 Jan 2025 23:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:30.645817
- Title: Compositional Instruction Following with Language Models and Reinforcement Learning
- Title(参考訳): 言語モデルと強化学習による構成指導
- Authors: Vanya Cohen, Geraud Nangue Tasse, Nakul Gopalan, Steven James, Matthew Gombolay, Ray Mooney, Benjamin Rosman,
- Abstract要約: 合成支援型強化学習言語エージェント(CERLLA)について紹介する。
本手法は,構成ポリシー表現と意味近似を利用して,言語で指定されたタスクの複雑性サンプルを削減する。
我々のモデルは成功率が高く、非構成ベースラインよりも少ないステップで学習する。
- 参考スコア(独自算出の注目度): 10.513214582226649
- License:
- Abstract: Combining reinforcement learning with language grounding is challenging as the agent needs to explore the environment while simultaneously learning multiple language-conditioned tasks. To address this, we introduce a novel method: the compositionally-enabled reinforcement learning language agent (CERLLA). Our method reduces the sample complexity of tasks specified with language by leveraging compositional policy representations and a semantic parser trained using reinforcement learning and in-context learning. We evaluate our approach in an environment requiring function approximation and demonstrate compositional generalization to novel tasks. Our method significantly outperforms the previous best non-compositional baseline in terms of sample complexity on 162 tasks designed to test compositional generalization. Our model attains a higher success rate and learns in fewer steps than the non-compositional baseline. It reaches a success rate equal to an oracle policy's upper-bound performance of 92%. With the same number of environment steps, the baseline only reaches a success rate of 80%.
- Abstract(参考訳): 複数の言語条件タスクを同時に学習しながら,エージェントが環境を探究する必要があるため,強化学習と言語基盤の併用は困難である。
そこで本研究では,合成可能な強化学習言語エージェント(CERLLA)を提案する。
本手法は,強化学習と文脈内学習を用いて学習した意味解析器と,構成ポリシー表現を活用することで,言語で指定されたタスクのサンプル複雑性を低減する。
我々は,関数近似を必要とする環境下でのアプローチを評価し,新しいタスクに対する合成一般化を実証する。
本手法は, 構成一般化の検証を目的とした162のタスクにおいて, サンプルの複雑さの観点から, 従来で最も優れた非構成的ベースラインを著しく上回っている。
我々のモデルは成功率が高く、非構成ベースラインよりも少ないステップで学習する。
その成功率は、オラクル政策の上限パフォーマンスの92%に匹敵する。
同じ数の環境ステップで、ベースラインは80%の成功率にしか達しません。
関連論文リスト
- Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Persian Natural Language Inference: A Meta-learning approach [6.832341432995628]
本稿では,ペルシャ語で自然言語を推論するメタラーニング手法を提案する。
提案手法を4つの言語と補助課題を用いて評価する。
論文 参考訳(メタデータ) (2022-05-18T06:51:58Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Learning to Follow Language Instructions with Compositional Policies [22.778677208048475]
本稿では,目標達成タスクからなる環境下で自然言語命令を実行することを学習するフレームワークを提案する。
我々は強化学習エージェントを訓練し、その後ブール代数を通して構成できる値関数を学習する。
我々は、Webスケールコーパスで事前訓練されたSeq2seqモデルを微調整し、言語を論理式にマッピングする。
論文 参考訳(メタデータ) (2021-10-09T21:28:26Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。