論文の概要: Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.21942v1
- Date: Fri, 26 Sep 2025 06:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.235296
- Title: Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための構造情報に基づく階層的拡散
- Authors: Xianghua Zeng, Hao Peng, Angsheng Li, Yicheng Pan,
- Abstract要約: 本稿では,効率的なオフライン政策学習のための構造情報に基づく階層的拡散フレームワークを提案する。
オフライン軌道に埋め込まれた構造情報を解析して拡散階層を適応的に構築する。
SIHDは意思決定性能において最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 13.839214658191038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative methods have shown promising potential for modeling trajectories from offline reinforcement learning (RL) datasets, and hierarchical diffusion has been introduced to mitigate variance accumulation and computational challenges in long-horizon planning tasks. However, existing approaches typically assume a fixed two-layer diffusion hierarchy with a single predefined temporal scale, which limits adaptability to diverse downstream tasks and reduces flexibility in decision making. In this work, we propose SIHD, a novel Structural Information-based Hierarchical Diffusion framework for effective and stable offline policy learning in long-horizon environments with sparse rewards. Specifically, we analyze structural information embedded in offline trajectories to construct the diffusion hierarchy adaptively, enabling flexible trajectory modeling across multiple temporal scales. Rather than relying on reward predictions from localized sub-trajectories, we quantify the structural information gain of each state community and use it as a conditioning signal within the corresponding diffusion layer. To reduce overreliance on offline datasets, we introduce a structural entropy regularizer that encourages exploration of underrepresented states while avoiding extrapolation errors from distributional shifts. Extensive evaluations on challenging offline RL tasks show that SIHD significantly outperforms state-of-the-art baselines in decision-making performance and demonstrates superior generalization across diverse scenarios.
- Abstract(参考訳): 拡散に基づく生成法は、オフライン強化学習(RL)データセットからトラジェクトリをモデル化するための有望な可能性を示し、長期計画タスクにおける分散の蓄積と計算上の課題を軽減するために階層的拡散を導入した。
しかし、既存のアプローチでは、通常、単一の事前定義された時間スケールで固定された2層拡散階層を仮定し、様々な下流タスクへの適応性を制限し、意思決定の柔軟性を低下させる。
本研究では,構造情報に基づく階層的拡散フレームワークであるSIHDを提案する。
具体的には、オフライン軌道に埋め込まれた構造情報を解析して拡散階層を適応的に構築し、複数の時間スケールにわたる柔軟な軌道モデリングを可能にする。
局所的なサブトラジェクトリからの報酬予測に頼るのではなく、各状態コミュニティの構造情報ゲインを定量化し、対応する拡散層内の条件信号として利用する。
オフラインデータセットの過度な信頼性を低減するため、分布シフトによる外挿誤差を回避しつつ、未表現状態の探索を促進する構造エントロピー正規化器を導入する。
オフラインのRLタスクに対する大規模な評価は、SIHDが意思決定性能において最先端のベースラインを著しく上回り、多様なシナリオにおいて優れた一般化を示すことを示している。
関連論文リスト
- Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - RAD: Retrieval High-quality Demonstrations to Enhance Decision-making [23.136426643341462]
オフライン強化学習(RL)により、エージェントは固定データセットからポリシーを学ぶことができる。
RLはデータセットの空間性や、準最適軌道と専門家軌道の重なり合いの欠如によって制限されることが多い。
本稿では,非パラメトリック検索と拡散に基づく生成モデルを組み合わせた意思決定のための検索高量子デモ(RAD)を提案する。
論文 参考訳(メタデータ) (2025-07-21T08:08:18Z) - State-Covering Trajectory Stitching for Diffusion Planners [23.945423041112036]
State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-01T08:32:22Z) - STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization [34.53308463024231]
本稿では,時空間探索型パターン学習フレームワークSTRAPを提案する。
推論中、STRAPは現在の入力と類似性に基づいてライブラリから関連するパターンを検索し、プラグイン・アンド・プレイ・プロンプト機構を介してモデルに注入する。
複数の実世界のストリーミンググラフデータセットに対する実験によると、STRAPはSTOODタスクの最先端STGNNベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T06:11:05Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Hybrid Recurrent Models Support Emergent Descriptions for Hierarchical Planning and Control [0.8749675983608172]
リカレントスイッチング線形力学系(rSLDS)として知られるハイブリッド状態空間モデルのクラスは、意味のある振る舞い単位を発見する。
我々は、rSLDSによって形成されたリッチな表現は、計画と制御に有用な抽象化を提供することができると提案する。
本稿では,低レベル線形二乗制御器上に離散型MDPを配置する,アクティブ推論にインスパイアされた新しい階層型モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-20T16:02:54Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Network Diffusions via Neural Mean-Field Dynamics [52.091487866968286]
本稿では,ネットワーク上の拡散の推論と推定のための新しい学習フレームワークを提案する。
本研究の枠組みは, ノード感染確率の正確な進化を得るために, モリ・ズワンジッヒ形式から導かれる。
我々のアプローチは、基礎となる拡散ネットワークモデルのバリエーションに対して多用途で堅牢である。
論文 参考訳(メタデータ) (2020-06-16T18:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。