論文の概要: A Unified Framework for Zero-Shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.20542v1
- Date: Thu, 23 Oct 2025 13:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.016404
- Title: A Unified Framework for Zero-Shot Reinforcement Learning
- Title(参考訳): ゼロショット強化学習のための統一フレームワーク
- Authors: Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland,
- Abstract要約: ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、一般エージェントを教師なしで開発するための場として登場した。
関心が高まりつつあるにもかかわらず、この分野には共通の分析レンズがない。
ゼロショットRLのための最初の統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.2951541543732647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot reinforcement learning (RL) has emerged as a setting for developing general agents in an unsupervised manner, capable of solving downstream tasks without additional training or planning at test-time. Unlike conventional RL, which optimizes policies for a fixed reward, zero-shot RL requires agents to encode representations rich enough to support immediate adaptation to any objective, drawing parallels to vision and language foundation models. Despite growing interest, the field lacks a common analytical lens. We present the first unified framework for zero-shot RL. Our formulation introduces a consistent notation and taxonomy that organizes existing approaches and allows direct comparison between them. Central to our framework is the classification of algorithms into two families: direct representations, which learn end-to-end mappings from rewards to policies, and compositional representations, which decompose the representation leveraging the substructure of the value function. Within this framework, we highlight shared principles and key differences across methods, and we derive an extended bound for successor-feature methods, offering a new perspective on their performance in the zero-shot regime. By consolidating existing work under a common lens, our framework provides a principled foundation for future research in zero-shot RL and outlines a clear path toward developing more general agents.
- Abstract(参考訳): ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、一般エージェントを教師なしで開発し、追加のトレーニングやテスト時の計画なしで下流タスクを解決できる環境として登場した。
固定報酬のためのポリシーを最適化する従来のRLとは異なり、ゼロショットRLはエージェントが任意の目的への即時適応をサポートするのに十分な表現をエンコードする必要がある。
関心が高まりつつあるにもかかわらず、この分野には共通の分析レンズがない。
ゼロショットRLのための最初の統一フレームワークを提案する。
我々の定式化は、既存のアプローチを整理し、それらの直接比較を可能にする一貫した表記法と分類法を導入します。
我々の枠組みの中心はアルゴリズムを2つのファミリーに分類することである: 直接表現は報酬からポリシーへのエンドツーエンドマッピングを学習し、構成表現は値関数のサブ構造を利用した表現を分解する。
このフレームワーク内では、メソッド間の共通原則と重要な違いを強調し、ゼロショット方式におけるそれらのパフォーマンスに関する新たな視点を提供する、後継機能的メソッドの拡張バウンダリを導出します。
共通レンズで既存の作業を統合することで、このフレームワークはゼロショットRLにおける将来の研究の原則となる基盤を提供し、より一般的なエージェントを開発するための明確な道筋を概説する。
関連論文リスト
- DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T21:58:06Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。