論文の概要: Improving Long-Horizon Imitation Through Instruction Prediction
- arxiv url: http://arxiv.org/abs/2306.12554v1
- Date: Wed, 21 Jun 2023 20:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:14:26.696595
- Title: Improving Long-Horizon Imitation Through Instruction Prediction
- Title(参考訳): 命令予測によるロングホリゾン模倣の改善
- Authors: Joey Hejna, Pieter Abbeel, Lerrel Pinto
- Abstract要約: 本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
- 参考スコア(独自算出の注目度): 93.47416552953075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex, long-horizon planning and its combinatorial nature pose steep
challenges for learning-based agents. Difficulties in such settings are
exacerbated in low data regimes where over-fitting stifles generalization and
compounding errors hurt accuracy. In this work, we explore the use of an often
unused source of auxiliary supervision: language. Inspired by recent advances
in transformer-based models, we train agents with an instruction prediction
loss that encourages learning temporally extended representations that operate
at a high level of abstraction. Concretely, we demonstrate that instruction
modeling significantly improves performance in planning environments when
training with a limited number of demonstrations on the BabyAI and Crafter
benchmarks. In further analysis we find that instruction modeling is most
important for tasks that require complex reasoning, while understandably
offering smaller gains in environments that require simple plans. More details
and code can be found at https://github.com/jhejna/instruction-prediction.
- Abstract(参考訳): 複雑な長期計画とその組み合わせの性質は、学習ベースのエージェントに急激な課題をもたらす。
このような設定の困難さは、過度に適合するシッフルの一般化と複合的なエラーが正確さを損なう低データレギュレーションにおいて悪化する。
本研究では,しばしば使われない補助監督の源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展に触発されて,高い抽象度で動作する時間拡張表現の学習を促進する命令予測損失を用いたエージェントの訓練を行った。
具体的には,BabyAI と Crafter ベンチマークで限られた数の実演を行えば,計画環境のパフォーマンスが大幅に向上することを示す。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
詳細とコードはhttps://github.com/jhejna/instruction-predictionにある。
関連論文リスト
- Simplifying DINO via Coding Rate Regularization [74.88963795406733]
DINOとDINOv2は、大規模にラベル付けされていない画像データから表現を学ぶために広く使われている2つのモデルファミリーである。
この研究は、設計原則をシンプルにすることで、ディープラーニングの実証的な実践を改善する可能性を強調します。
論文 参考訳(メタデータ) (2025-02-14T18:58:04Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens [1.8416014644193066]
本稿では,エージェントの将来について,高レベルかつ長期にわたる情報を含むプランニングトークンについて紹介する。
計画トークンは、解釈可能な計画視覚化とアテンションマップを通じて、モデルのポリシーの解釈可能性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-09-14T19:30:53Z) - TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction [7.3292387742640415]
本稿では,よりリッチなトレーニングダイナミックス情報を,原型的コントラスト学習フレームワークに組み込むことを提案する。
我々は,2つの大規模自然主義データセットを用いたアプローチの実証評価を行った。
論文 参考訳(メタデータ) (2024-04-18T23:12:46Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Representation Learning for Weakly Supervised Relation Extraction [19.689433249830465]
本論文では、分散テキスト表現機能を学ぶための教師なし事前学習モデルをいくつか提示する。
実験により,従来の手作りの特徴と組み合わせることで,関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。
論文 参考訳(メタデータ) (2021-04-10T12:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。