論文の概要: Natural Language-conditioned Reinforcement Learning with Inside-out Task
Language Development and Translation
- arxiv url: http://arxiv.org/abs/2302.09368v1
- Date: Sat, 18 Feb 2023 15:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:53:55.828425
- Title: Natural Language-conditioned Reinforcement Learning with Inside-out Task
Language Development and Translation
- Title(参考訳): インサイドアウトタスク言語開発と翻訳による自然言語条件強化学習
- Authors: Jing-Cheng Pang, Xin-Yu Yang, Si-Hang Yang, Yang Yu
- Abstract要約: 自然言語条件強化学習(英語版) (RL) により、エージェントは人間の指示に従うことができる。
従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。
我々は,タスク関連でユニークなタスク言語(TL)を開発することにより,自然言語条件付きRLの内在型スキームを開発する。
- 参考スコア(独自算出の注目度): 14.176720914723127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language-conditioned reinforcement learning (RL) enables the agents
to follow human instructions. Previous approaches generally implemented
language-conditioned RL by providing human instructions in natural language
(NL) and training a following policy. In this outside-in approach, the policy
needs to comprehend the NL and manage the task simultaneously. However, the
unbounded NL examples often bring much extra complexity for solving concrete RL
tasks, which can distract policy learning from completing the task. To ease the
learning burden of the policy, we investigate an inside-out scheme for natural
language-conditioned RL by developing a task language (TL) that is task-related
and unique. The TL is used in RL to achieve highly efficient and effective
policy training. Besides, a translator is trained to translate NL into TL. We
implement this scheme as TALAR (TAsk Language with predicAte Representation)
that learns multiple predicates to model object relationships as the TL.
Experiments indicate that TALAR not only better comprehends NL instructions but
also leads to a better instruction-following policy that improves 13.4% success
rate and adapts to unseen expressions of NL instruction. The TL can also be an
effective task abstraction, naturally compatible with hierarchical RL.
- Abstract(参考訳): 自然言語条件強化学習(RL)により、エージェントは人間の指示に従うことができる。
従来のアプローチでは、自然言語(NL)におけるヒューマンインストラクションを提供し、以下のポリシーをトレーニングすることで、言語条件付きRLの実装が一般的であった。
この外部からのアプローチでは、ポリシーはNLを理解し、同時にタスクを管理する必要がある。
しかし、unbounded nlの例では、具体的なrlタスクの解決に多くの複雑さをもたらし、ポリシー学習をタスクの完了から遠ざける可能性がある。
政策の学習負担を軽減するため,タスク関連で独特なタスク言語(TL)を開発することにより,自然言語条件付きRLの内装方式を検討する。
TLは、高効率で効果的な政策訓練を達成するためにRLで使用される。
また、翻訳器はNLをTLに変換するよう訓練される。
本稿では,複数の述語を学習してオブジェクト関係をTLとしてモデル化する TALAR (Task Language with predicAte Representation) として実装する。
実験によると、TALARはNL命令をよりよく理解するだけでなく、13.4%の成功率を改善し、NL命令の見当たらない表現に適応するより良い命令フォローポリシーをもたらす。
TLは効果的なタスク抽象化であり、階層RLと自然に互換性がある。
関連論文リスト
- Natural Language Reinforcement Learning [23.310602238815285]
Reinforcement Learning (RL) はマルコフ決定過程 (MDP) を用いて決定を数学的に定式化する
本稿では,従来のMDPを自然言語に基づく表現空間に拡張することで,自然言語強化学習(NLRL)の可能性を探る。
論文 参考訳(メタデータ) (2024-11-21T15:57:02Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Natural Language Reinforcement Learning [25.165291680493844]
本稿では,自然言語表現とRLの原理を組み合わせた自然言語強化学習(NLRL)を紹介する。
具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。
論文 参考訳(メタデータ) (2024-02-11T11:03:04Z) - GLIDE-RL: Grounded Language Instruction through DEmonstration in RL [7.658523833511356]
自然言語を基盤とした効率的な強化学習(RL)エージェントの訓練は、長年にわたる課題である。
本稿では,教師-教師-学生のカリキュラム学習フレームワークを導入した新しいアルゴリズム,GLIDE-RL(GLIDE-RL)を提案する。
この多エージェントフレームワークでは、教師と学生エージェントは、生徒の現在のスキルレベルに基づいて同時に学習する。
論文 参考訳(メタデータ) (2024-01-03T17:32:13Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Learning to Solve Voxel Building Embodied Tasks from Pixels and Natural
Language Instructions [53.21504989297547]
本研究では,Minecraftのような環境下でのオブジェクト構築作業において,言語モデルと強化学習を組み合わせた新しい手法を提案する。
提案手法は,まず命令から一貫した達成可能なサブゴールのセットを生成し,学習済みのRLポリシーで関連するサブタスクを完了させる。
論文 参考訳(メタデータ) (2022-11-01T18:30:42Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - LTL2Action: Generalizing LTL Instructions for Multi-Task RL [4.245018630914216]
我々は,マルチタスク環境における指示に従うために,深層強化学習(RL)エージェントを指導する問題に対処する。
我々は、ドメイン固有の語彙を用いて命令を指定するために、よく知られた形式言語(線形時間論理(LTL))を用いる。
論文 参考訳(メタデータ) (2021-02-13T04:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。