論文の概要: Offline Reinforcement Learning of High-Quality Behaviors Under Robust Style Alignment
- arxiv url: http://arxiv.org/abs/2601.22823v1
- Date: Fri, 30 Jan 2026 10:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.39557
- Title: Offline Reinforcement Learning of High-Quality Behaviors Under Robust Style Alignment
- Title(参考訳): ロバストスタイルアライメントによる高品位行動のオフライン強化学習
- Authors: Mathieu Petitbois, Rémy Portelas, Sylvain Lamprier,
- Abstract要約: サブトラジェクティブラベリング機能を用いた明示的なスタイル監視を用いたスタイル条件付きポリシーのオフライン強化学習について検討する。
SCIQL(Style-Conditioned Implicit Q-Learning)を導入する。
実験によると、SCIQLは、以前のオフラインメソッドと比較して、両方の目的において優れたパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 11.506483851165656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study offline reinforcement learning of style-conditioned policies using explicit style supervision via subtrajectory labeling functions. In this setting, aligning style with high task performance is particularly challenging due to distribution shift and inherent conflicts between style and reward. Existing methods, despite introducing numerous definitions of style, often fail to reconcile these objectives effectively. To address these challenges, we propose a unified definition of behavior style and instantiate it into a practical framework. Building on this, we introduce Style-Conditioned Implicit Q-Learning (SCIQL), which leverages offline goal-conditioned RL techniques, such as hindsight relabeling and value learning, and combine it with a new Gated Advantage Weighted Regression mechanism to efficiently optimize task performance while preserving style alignment. Experiments demonstrate that SCIQL achieves superior performance on both objectives compared to prior offline methods. Code, datasets and visuals are available in: https://sciql-iclr-2026.github.io/.
- Abstract(参考訳): サブトラジェクティブラベリング機能を用いた明示的なスタイル監視を用いたスタイル条件付きポリシーのオフライン強化学習について検討する。
この設定では、分散シフトとスタイルと報酬の固有の衝突のために、高いタスクパフォーマンスと整合するスタイルが特に難しい。
既存の手法は、多くのスタイルの定義を導入したが、しばしばこれらの目的を効果的に一致させることに失敗する。
これらの課題に対処するため、我々は行動スタイルの統一的な定義を提案し、それを実践的なフレームワークにインスタンス化する。
そこで本研究では,遅延処理やバリューラーニングといったオフライン目標条件付きRL技術を活用したSCIQL(Style-Conditioned Implicit Q-Learning)を導入し,新たなGated Advantage Weighted Regressionメカニズムと組み合わせて,スタイルアライメントを維持しながらタスクパフォーマンスを効率的に最適化する。
実験によると、SCIQLは、以前のオフラインメソッドと比較して、両方の目的において優れたパフォーマンスを達成している。
コード、データセット、ビジュアルは、https://sciql-iclr-2026.github.io/.comで入手できる。
関連論文リスト
- Disentangling Content from Style to Overcome Shortcut Learning: A Hybrid Generative-Discriminative Learning Framework [4.7403081236484335]
ショートカット学習は、本質的な構造の代わりにテクスチャのような表面的特徴を利用する。
本稿では,明示的なコンテンツ非絡み合いを実現するハイブリッドフレームワークHyGDLを提案する。
従来の方法とは異なり、この原理的な非絡み合いにより、HyGDLは真に堅牢な表現を学ぶことができる。
論文 参考訳(メタデータ) (2025-09-15T05:28:32Z) - Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models [5.492174268132387]
Style-Proは、CLIPのゼロショット一般化能力を緩和し、保存する新しいプロンプト学習フレームワークである。
Style-Proは、ベース・ツー・ニューの一般化、クロス・データセットの転送、ドメインの一般化など、さまざまな設定における最先端のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-25T00:20:53Z) - SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models [56.93151679231602]
本研究は, 応答における2つの重要なスタイル的要素, 言語形式と指導的前提を同定する。
これに触発されて、スタイル一貫性対応対応ランキング(SCAR)を導入する。
SCARは、そのレスポンススタイリスティックな一貫性に基づいて、トレーニングセット内の命令-レスポンスペアを優先順位付けする。
論文 参考訳(メタデータ) (2024-06-16T10:10:37Z) - DeAL: Decoding-time Alignment for Large Language Models [58.368979253590794]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
我々は,報酬関数をカスタマイズし,LLMの復号時間アライメントを可能にするフレームワークであるDeALを提案する。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Style-Agnostic Reinforcement Learning [9.338454092492901]
本稿では,スタイル伝達と逆学習の両方を用いて,スタイル非依存表現を学習する新しい手法を提案する。
本手法は,固有対向型生成器から生成される多様な画像スタイルでアクターを訓練する。
提案手法は,Procgen and Distracting Control Suiteベンチマークにおける最先端の手法よりも,競争力や性能の向上が期待できる。
論文 参考訳(メタデータ) (2022-08-31T13:45:00Z) - Style Interleaved Learning for Generalizable Person Re-identification [69.03539634477637]
DG ReIDトレーニングのための新しいスタイルインターリーブラーニング(IL)フレームワークを提案する。
従来の学習戦略とは異なり、ILには2つの前方伝播と1つの後方伝播が組み込まれている。
我々のモデルはDG ReIDの大規模ベンチマークにおいて最先端の手法を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-07-07T07:41:32Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。