論文の概要: Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting
- arxiv url: http://arxiv.org/abs/2412.04368v1
- Date: Thu, 05 Dec 2024 17:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:39:55.864420
- Title: Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting
- Title(参考訳): 自己回帰的特徴とアドバンテージウェイトによる有限行動基礎モデル
- Authors: Edoardo Cetin, Ahmed Touati, Yann Ollivier,
- Abstract要約: FB(Forward-backward representation)は、行動基礎モデル(BFM)を訓練するためのフレームワークである。
ここでは、FBモデルトレーニングの2つの中核的な制限に対処する。
FB は (Nair et al., 2020b; Cetin et al., 2024) の手法を FB に適用することにより, オフライン RL 技術とうまく連携することを示す。
- 参考スコア(独自算出の注目度): 24.569945300749946
- License:
- Abstract: The forward-backward representation (FB) is a recently proposed framework (Touati et al., 2023; Touati & Ollivier, 2021) to train behavior foundation models (BFMs) that aim at providing zero-shot efficient policies for any new task specified in a given reinforcement learning (RL) environment, without training for each new task. Here we address two core limitations of FB model training. First, FB, like all successor-feature-based methods, relies on a linear encoding of tasks: at test time, each new reward function is linearly projected onto a fixed set of pre-trained features. This limits expressivity as well as precision of the task representation. We break the linearity limitation by introducing auto-regressive features for FB, which let finegrained task features depend on coarser-grained task information. This can represent arbitrary nonlinear task encodings, thus significantly increasing expressivity of the FB framework. Second, it is well-known that training RL agents from offline datasets often requires specific techniques.We show that FB works well together with such offline RL techniques, by adapting techniques from (Nair et al.,2020b; Cetin et al., 2024) for FB. This is necessary to get non-flatlining performance in some datasets, such as DMC Humanoid. As a result, we produce efficient FB BFMs for a number of new environments. Notably, in the D4RL locomotion benchmark, the generic FB agent matches the performance of standard single-task offline agents (IQL, XQL). In many setups, the offline techniques are needed to get any decent performance at all. The auto-regressive features have a positive but moderate impact, concentrated on tasks requiring spatial precision and task generalization beyond the behaviors represented in the trainset.
- Abstract(参考訳): フォワードバックワード表現(FB)は、最近提案されたフレームワーク(Touati et al , 2023; Touati & Ollivier, 2021)で、与えられた強化学習(RL)環境で指定された新しいタスクに対して、新しいタスクをトレーニングすることなく、ゼロショットの効率的なポリシーを提供することを目的とした行動基盤モデル(BFM)を訓練する。
ここでは、FBモデルトレーニングの2つの中核的な制限に対処する。
第一に、FBは後継機能ベースのメソッドと同様に、タスクの線形符号化に依存している: テスト時に、各新しい報酬関数は、予め訓練された機能の固定セットに線形に投影される。
これにより、表現性だけでなく、タスク表現の精度も制限される。
我々はFBの自己回帰機能を導入して線形性制限を破り、きめ細かなタスク情報を粗いタスク情報に依存するようにした。
これは任意の非線形タスク符号化を表現することができ、したがってFBフレームワークの表現性は著しく増大する。
第2に、オフラインデータセットからRLエージェントをトレーニングすることは、しばしば特定の技術を必要とすることが知られているが、FBは、(Nair et al ,2020b; Cetin et al , 2024)からFBに適応することで、そのようなオフラインRLテクニックとうまく連携できることが示されている。
DMC Humanoidのようなデータセットでは、非フラット化のパフォーマンスを得る必要がある。
その結果、我々は多くの新しい環境に対して効率的なFB BFMを製作した。
特に、D4RLのローコモーションベンチマークでは、ジェネリックFBエージェントが標準のシングルタスクオフラインエージェント(IQL、XQL)のパフォーマンスと一致している。
多くのセットアップでは、適切なパフォーマンスを得るためにオフラインのテクニックが必要です。
自己回帰的特徴は、空間的精度を必要とするタスクに集中し、トレインセットに表される行動を超えてタスクを一般化する、肯定的だが適度な影響を持つ。
関連論文リスト
- Enhancing Pre-Trained Decision Transformers with Prompt-Tuning Bandits [2.6731152954002924]
本稿では,高速なトラジェクトリ・プロンプトを構築するために,スケーラブルなバンディットベースのプロンプトチューニング手法を提案する。
我々の手法は、トレーニング済みのTransformerのバックボーンを変更することなく、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-07T14:57:17Z) - Flow Q-Learning [61.60383927357656]
簡単なオフライン強化学習(RL)手法であるフローQ-ラーニング(FQL)を提案する。
FQLは、値を最大化するイテレーティブフローポリシを直接指導するのではなく、表現力のあるワンステップポリシをRLでトレーニングする。
FQLは73の州およびピクセルベースのOGBenchタスクとD4RLタスクに強いパフォーマンスをもたらすことを実験的に示す。
論文 参考訳(メタデータ) (2025-02-04T18:04:05Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。