Fugu-MT 論文翻訳(概要): Improving Long-Horizon Imitation Through Instruction Prediction

論文の概要: Improving Long-Horizon Imitation Through Instruction Prediction

arxiv url: http://arxiv.org/abs/2306.12554v1
Date: Wed, 21 Jun 2023 20:47:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 16:14:26.696595
Title: Improving Long-Horizon Imitation Through Instruction Prediction
Title（参考訳）: 命令予測によるロングホリゾン模倣の改善
Authors: Joey Hejna, Pieter Abbeel, Lerrel Pinto
Abstract要約: 本研究では、しばしば使われない補助的監督源である言語の使用について検討する。近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
参考スコア（独自算出の注目度）: 93.47416552953075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Complex, long-horizon planning and its combinatorial nature pose steep challenges for learning-based agents. Difficulties in such settings are exacerbated in low data regimes where over-fitting stifles generalization and compounding errors hurt accuracy. In this work, we explore the use of an often unused source of auxiliary supervision: language. Inspired by recent advances in transformer-based models, we train agents with an instruction prediction loss that encourages learning temporally extended representations that operate at a high level of abstraction. Concretely, we demonstrate that instruction modeling significantly improves performance in planning environments when training with a limited number of demonstrations on the BabyAI and Crafter benchmarks. In further analysis we find that instruction modeling is most important for tasks that require complex reasoning, while understandably offering smaller gains in environments that require simple plans. More details and code can be found at https://github.com/jhejna/instruction-prediction.
Abstract（参考訳）: 複雑な長期計画とその組み合わせの性質は、学習ベースのエージェントに急激な課題をもたらす。このような設定の困難さは、過度に適合するシッフルの一般化と複合的なエラーが正確さを損なう低データレギュレーションにおいて悪化する。本研究では,しばしば使われない補助監督の源である言語の使用について検討する。近年のトランスフォーマーモデルの発展に触発されて,高い抽象度で動作する時間拡張表現の学習を促進する命令予測損失を用いたエージェントの訓練を行った。具体的には,BabyAI と Crafter ベンチマークで限られた数の実演を行えば,計画環境のパフォーマンスが大幅に向上することを示す。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。詳細とコードはhttps://github.com/jhejna/instruction-predictionにある。

関連論文リスト

Simplifying DINO via Coding Rate Regularization [74.88963795406733]
DINOとDINOv2は、大規模にラベル付けされていない画像データから表現を学ぶために広く使われている2つのモデルファミリーである。この研究は、設計原則をシンプルにすることで、ディープラーニングの実証的な実践を改善する可能性を強調します。
論文参考訳（メタデータ） (2025-02-14T18:58:04Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens [1.8416014644193066]
本稿では,エージェントの将来について,高レベルかつ長期にわたる情報を含むプランニングトークンについて紹介する。計画トークンは、解釈可能な計画視覚化とアテンションマップを通じて、モデルのポリシーの解釈可能性を向上させることを実証する。
論文参考訳（メタデータ） (2024-09-14T19:30:53Z)
TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction [7.3292387742640415]
本稿では,よりリッチなトレーニングダイナミックス情報を,原型的コントラスト学習フレームワークに組み込むことを提案する。我々は,2つの大規模自然主義データセットを用いたアプローチの実証評価を行った。
論文参考訳（メタデータ） (2024-04-18T23:12:46Z)
Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文参考訳（メタデータ） (2024-02-19T14:02:31Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-01-30T15:04:39Z)
Representation Learning for Weakly Supervised Relation Extraction [19.689433249830465]
本論文では、分散テキスト表現機能を学ぶための教師なし事前学習モデルをいくつか提示する。実験により,従来の手作りの特徴と組み合わせることで,関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。
論文参考訳（メタデータ） (2021-04-10T12:22:25Z)
Adversarial Imitation Learning with Trajectorial Augmentation and Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文参考訳（メタデータ） (2021-03-25T14:49:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。