論文の概要: Reinforcement Learning of Implicit and Explicit Control Flow in
Instructions
- arxiv url: http://arxiv.org/abs/2102.13195v1
- Date: Thu, 25 Feb 2021 22:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-03-01 19:38:14.868588
- Title: Reinforcement Learning of Implicit and Explicit Control Flow in
Instructions
- Title(参考訳): インストラクションにおけるインシシットと明示的制御フローの強化学習
- Authors: Ethan A. Brooks, Janarthanan Rajendran, Richard L. Lewis, Satinder
Singh
- Abstract要約: 動的環境で柔軟にタスク指示に従う学習は、強化学習エージェントにとって興味深い課題です。
ここでは、命令の厳格なステップバイステップ実行から逸脱する学習制御フローの問題に焦点を当てる。
我々は、タスク報酬のみから、命令の内部エンコーディングにおけるフレキシブルな参加と条件行動を学ぶことによって、これらの課題を満たす注意に基づくアーキテクチャを定式化する。
- 参考スコア(独自算出の注目度): 21.398051995216065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to flexibly follow task instructions in dynamic environments poses
interesting challenges for reinforcement learning agents. We focus here on the
problem of learning control flow that deviates from a strict step-by-step
execution of instructions -- that is, control flow that may skip forward over
parts of the instructions or return backward to previously completed or skipped
steps. Demand for such flexible control arises in two fundamental ways:
explicitly when control is specified in the instructions themselves (such as
conditional branching and looping) and implicitly when stochastic environment
dynamics require re-completion of instructions whose effects have been
perturbed, or opportunistic skipping of instructions whose effects are already
present. We formulate an attention-based architecture that meets these
challenges by learning, from task reward only, to flexibly attend to and
condition behavior on an internal encoding of the instructions. We test the
architecture's ability to learn both explicit and implicit control in two
illustrative domains -- one inspired by Minecraft and the other by StarCraft --
and show that the architecture exhibits zero-shot generalization to novel
instructions of length greater than those in a training set, at a performance
level unmatched by two baseline recurrent architectures and one ablation
architecture.
- Abstract(参考訳): 動的環境で柔軟にタスク指示に従う学習は、強化学習エージェントにとって興味深い課題です。
ここでは、命令の厳格なステップバイステップ実行から逸脱する制御フローの学習、すなわち、命令の一部をスキップしたり、以前完了またはスキップされたステップに戻る制御フローに焦点を当てます。
このような柔軟な制御の要求は次の2つの基本的な方法によって生じる: 制御が(条件分岐やループのような)命令自身で指定されたときと、確率的環境力学が摂動した命令の再補完を必要とするときと、既に存在する命令の日和見的スキップである。
我々は、タスク報酬のみから、命令の内部エンコーディングにおけるフレキシブルな参加と条件行動を学ぶことによって、これらの課題を満たす注意に基づくアーキテクチャを定式化する。
MinecraftとStarCraftにインスパイアされた2つの図示的ドメインにおいて、アーキテクチャの明示的および暗黙的な制御の両方を学ぶ能力をテストし、このアーキテクチャは2つのベースラインのリカレントアーキテクチャと1つのアブレーションアーキテクチャに比類のないパフォーマンスレベルで、トレーニングセットのそれより大きい長さの新規な命令に対してゼロショットの一般化を示すことを示した。
関連論文リスト
- RIFT: Reordered Instruction Following Testbed To Evaluate Instruction Following in Singular Multistep Prompt Structures [7.812349915277743]
コンテンツから構造を引き離すことにより, RIFT (Reordered Instruction following Testbed) を導入する。
6つの最先端のオープンソースLLMにまたがる1万を超える評価では、ジャンプ条件下では精度が最大72%低下した。
その結果、現在のアーキテクチャの基本的限界として構造感度が明らかとなった。
論文 参考訳(メタデータ) (2026-01-26T19:52:42Z) - Show and Tell: Prompt Strategies for Style Control in Multi-Turn LLM Code Generation [0.0]
言語モデルは、過剰な冗長性に傾向のある機能的に正しいコードを生成する。
命令ベース,例ベース,および組み合わせプロンプトが初期制御と拡張訓練の異なるパターンを生成することを示す。
論文 参考訳(メタデータ) (2025-11-17T23:01:44Z) - Reasoning Up the Instruction Ladder for Controllable Language Models [26.068755167791505]
大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
論文 参考訳(メタデータ) (2025-10-30T22:13:31Z) - Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following [58.60470643433354]
言語モデルは、現実世界のアプリケーションにとって重要なマルチ制約命令に従うのに苦労することが多い。
本稿では,外部監督に依存しないラベルフリーの自己監督型強化学習フレームワークを提案する。
本稿では,厳密な報酬問題に対処するために,制約分解戦略と効率的な制約ワイドバイナリ分類を導入する。
論文 参考訳(メタデータ) (2025-10-16T08:24:44Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Can Language Models Follow Multiple Turns of Entangled Instructions? [109.4355301539557]
実世界のシナリオは、時間とともに複数の命令をまたいだ一貫性を必要とすることが多い。
本研究は,多方向命令処理における大規模言語モデルの能力について,系統的研究を行った。
我々は,MultiTurnInstructing with $sim$1.1K High-quality multi-turn conversation through the human-in-the-loop approach。
論文 参考訳(メタデータ) (2025-03-17T14:31:37Z) - AIR: Complex Instruction Generation via Automatic Iterative Refinement [29.639832268719363]
複雑な命令を生成するための現在のアプローチは、しばしば現在の命令要求とは無関係である。
本稿では,制約付き複雑な命令を生成するための,新しい反復修正フレームワークを提案する。
10Kの複雑な命令でAIR-10Kデータセットを構築し、我々のアプローチで生成された命令は、複雑な命令に従うモデルの能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-25T02:39:57Z) - On the loss of context-awareness in general instruction fine-tuning [101.03941308894191]
命令応答対における教師付き微調整(SFT)のようなポストトレーニング手法は、事前トレーニング中に学習した既存の能力を損なう可能性がある。
そこで本研究では,ユーザプロンプトに配慮したポストホックアテンション・ステアリングと,コンテキスト依存度指標を用いた条件付きインストラクションの微調整という,インストラクションモデルにおけるコンテキスト認識の損失を軽減する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Instruction Following without Instruction Tuning [87.72635104686275]
命令チューニングに比較して不十分な2種類の適応(チューニング)があるが、それでも命令に従うことができる。
我々は、事前訓練されたモデルを用いて、エキスパート製品における指示に従うルールベースの言語モデルを手書きで支援する。
論文 参考訳(メタデータ) (2024-09-21T22:36:22Z) - Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。
C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文 参考訳(メタデータ) (2024-07-10T07:37:20Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Robustness of Learning from Task Instructions [15.462970803323563]
従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。
新しいタスクに迅速かつ容易に一般化できるシステムを構築するために、タスク命令を監督の新たなトレンドとして採用している。
本研究は,新しいタスクの指示が (i) 操作された場合, (ii) 言い換えられた場合, (iii) 異なるレベルの簡潔さからシステムロバスト性を調べる。
論文 参考訳(メタデータ) (2022-12-07T17:54:59Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。