論文の概要: Reinforcement Learning of Implicit and Explicit Control Flow in
Instructions
- arxiv url: http://arxiv.org/abs/2102.13195v1
- Date: Thu, 25 Feb 2021 22:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 19:38:14.868588
- Title: Reinforcement Learning of Implicit and Explicit Control Flow in
Instructions
- Title(参考訳): インストラクションにおけるインシシットと明示的制御フローの強化学習
- Authors: Ethan A. Brooks, Janarthanan Rajendran, Richard L. Lewis, Satinder
Singh
- Abstract要約: 動的環境で柔軟にタスク指示に従う学習は、強化学習エージェントにとって興味深い課題です。
ここでは、命令の厳格なステップバイステップ実行から逸脱する学習制御フローの問題に焦点を当てる。
我々は、タスク報酬のみから、命令の内部エンコーディングにおけるフレキシブルな参加と条件行動を学ぶことによって、これらの課題を満たす注意に基づくアーキテクチャを定式化する。
- 参考スコア(独自算出の注目度): 21.398051995216065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to flexibly follow task instructions in dynamic environments poses
interesting challenges for reinforcement learning agents. We focus here on the
problem of learning control flow that deviates from a strict step-by-step
execution of instructions -- that is, control flow that may skip forward over
parts of the instructions or return backward to previously completed or skipped
steps. Demand for such flexible control arises in two fundamental ways:
explicitly when control is specified in the instructions themselves (such as
conditional branching and looping) and implicitly when stochastic environment
dynamics require re-completion of instructions whose effects have been
perturbed, or opportunistic skipping of instructions whose effects are already
present. We formulate an attention-based architecture that meets these
challenges by learning, from task reward only, to flexibly attend to and
condition behavior on an internal encoding of the instructions. We test the
architecture's ability to learn both explicit and implicit control in two
illustrative domains -- one inspired by Minecraft and the other by StarCraft --
and show that the architecture exhibits zero-shot generalization to novel
instructions of length greater than those in a training set, at a performance
level unmatched by two baseline recurrent architectures and one ablation
architecture.
- Abstract(参考訳): 動的環境で柔軟にタスク指示に従う学習は、強化学習エージェントにとって興味深い課題です。
ここでは、命令の厳格なステップバイステップ実行から逸脱する制御フローの学習、すなわち、命令の一部をスキップしたり、以前完了またはスキップされたステップに戻る制御フローに焦点を当てます。
このような柔軟な制御の要求は次の2つの基本的な方法によって生じる: 制御が(条件分岐やループのような)命令自身で指定されたときと、確率的環境力学が摂動した命令の再補完を必要とするときと、既に存在する命令の日和見的スキップである。
我々は、タスク報酬のみから、命令の内部エンコーディングにおけるフレキシブルな参加と条件行動を学ぶことによって、これらの課題を満たす注意に基づくアーキテクチャを定式化する。
MinecraftとStarCraftにインスパイアされた2つの図示的ドメインにおいて、アーキテクチャの明示的および暗黙的な制御の両方を学ぶ能力をテストし、このアーキテクチャは2つのベースラインのリカレントアーキテクチャと1つのアブレーションアーキテクチャに比類のないパフォーマンスレベルで、トレーニングセットのそれより大きい長さの新規な命令に対してゼロショットの一般化を示すことを示した。
関連論文リスト
- On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Instruction Following without Instruction Tuning [87.72635104686275]
命令チューニングに比較して不十分な2種類の適応(チューニング)があるが、それでも命令に従うことができる。
我々は、事前訓練されたモデルを用いて、エキスパート製品における指示に従うルールベースの言語モデルを手書きで支援する。
論文 参考訳(メタデータ) (2024-09-21T22:36:22Z) - Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。
C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文 参考訳(メタデータ) (2024-07-10T07:37:20Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Robustness of Learning from Task Instructions [15.462970803323563]
従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。
新しいタスクに迅速かつ容易に一般化できるシステムを構築するために、タスク命令を監督の新たなトレンドとして採用している。
本研究は,新しいタスクの指示が (i) 操作された場合, (ii) 言い換えられた場合, (iii) 異なるレベルの簡潔さからシステムロバスト性を調べる。
論文 参考訳(メタデータ) (2022-12-07T17:54:59Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。