論文の概要: QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL
- arxiv url: http://arxiv.org/abs/2605.01862v2
- Date: Fri, 08 May 2026 03:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.63656
- Title: QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL
- Title(参考訳): Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL
- Authors: Xing Lei, Jincheng Wang, Xuetao Zhang, Donglin Wang,
- Abstract要約: オフラインのゴール条件付きRL(GCRL)は、静的データセットから目標設定ポリシーを学ぶ。
実世界のデータセットは部分的に観測可能で歴史に依存しており、マルコフと非マルコフの混合を示す。
textbfQHyerは、コンテンツ適応履歴圧縮を実行する、ゲート付きハイブリッドアテンション-マンババックボーンを導入している。
- 参考スコア(独自算出の注目度): 34.9638718909932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline goal-conditioned RL (GCRL) learns goal-reaching policies from static datasets, but real-world datasets are often partially observable and history-dependent, exhibiting a mix of Markovian and non-Markovian that violate standard RL assumptions. History-aware sequence models such as Decision Transformer (DT) are a natural fit for long-term dependency modeling, yet pure attention is inefficient and brittle when handling local Markovian structure and long-range context simultaneously. Although recent hybrid architectures (e.g., LSDT) introduce local extractors to improve local dependencies modeling, the fixed-window extraction cannot adapt its effective memory to varying dependency lengths in temporally heterogeneous settings, often truncating long-range context rather than compressing its content adaptively. Moreover, sequential offline GCRL faces a key bottleneck: under sparse rewards, return-to-go (RTG) becomes non-discriminative across sub-trajectories, providing little guidance signal for stitching goal-reaching behaviors from diverse demonstrations. To address these, we propose \textbf{QHyer}, which replaces RTG with a flow-parameterized, state-conditioned goal-reaching Q-estimator to support stitching across demonstrations, and introduces a gated Hybrid Attention-Mamba backbone that performs content-adaptive history compression while preserving local dynamics. Extensive experiments demonstrate that \textbf{QHyer} achieves state-of-the-art performance on both non-Markovian and Markovian datasets, validating its effectiveness for diverse scenarios.
- Abstract(参考訳): オフラインのゴール条件付きRL(GCRL)は静的データセットから目標設定ポリシーを学ぶが、実世界のデータセットは部分的に観測可能で歴史に依存しており、標準のRL仮定に違反したマルコフと非マルコフの混合を示す。
Decision Transformer (DT) のような履歴対応のシーケンスモデルは、長期依存モデリングに自然に適合するが、局所マルコフ構造と長距離コンテキストを同時に扱う場合、純粋な注意は非効率で不安定である。
最近のハイブリッドアーキテクチャ(LSDTなど)では、ローカルな依存関係モデリングを改善するためにローカルな抽出器を導入しているが、固定ウィンドウ抽出は、そのコンテンツを適応的に圧縮するのではなく、しばしば長距離のコンテキストを中断する、時間的に不均一な設定において、その効果的なメモリを依存性長に適応させることはできない。
さらに、シーケンシャルなオフラインGCRLは、スパース報酬の下では、RTG(Return-to-go)はサブトラジェクトリ間で非差別的になり、多様なデモからゴール到達動作を縫うためのガイダンス信号はほとんど提供されない。
そこで本研究では,RTGをフローパラメータ化,状態条件付き目標到達Q推定器に置き換えて,実演間縫合を支援する方法を提案するとともに,局所力学を保ちながらコンテンツ適応型履歴圧縮を行うゲート型ハイブリッドアテンション・マンババックボーンを提案する。
大規模な実験は、非マルコフデータセットとマルコフデータセットの両方において、最先端のパフォーマンスを達成し、多様なシナリオにおいてその有効性を検証することを実証している。
関連論文リスト
- COREY: Entropy-Guided Runtime Chunk Scheduling for Selective Scan Kernels [11.316541559874864]
プロトタイプスケジューラは、固定幅ヒストグラムを用いて推定したアクティベーションエントロピーを、チャンクサイズ選択のランタイム信号として利用する。
COREYはConcept and Feasibilityのコントリビューションとして位置づけられている。
この作業には、Tier 2aとTier 2bを接続する完全なエンドツーエンド実行が含まれていない。
論文 参考訳(メタデータ) (2026-04-12T12:07:48Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文 参考訳(メタデータ) (2026-02-05T20:16:10Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - Accurate and Efficient Multivariate Time Series Forecasting via Offline Clustering [22.545533166145706]
セグメンツ(FOCUS)を用いたオフラインクラスタリングによるフォアキャスタの導入
FOCUSは、長距離依存性モデリングを単純化するMTS予測の新しいアプローチである。
最先端の精度を実現し、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-09T02:34:06Z) - STRGCN: Capturing Asynchronous Spatio-Temporal Dependencies for Irregular Multivariate Time Series Forecasting [14.156419219696252]
STRGCNはIMTSの複雑な相互依存性を完全連結グラフとして表現する。
4つの公開データセットの実験では、STRGCNが最先端の精度、競合するメモリ使用量、トレーニング速度を達成することが示されている。
論文 参考訳(メタデータ) (2025-05-07T06:41:33Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。