論文の概要: Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer
- arxiv url: http://arxiv.org/abs/2605.06104v1
- Date: Thu, 07 May 2026 12:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.760989
- Title: Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer
- Title(参考訳): 自己回帰RTGを超える:決定変換器におけるインジェクション外部シーケンスモデリングによる条件付け
- Authors: Yongyi Wang, Hanyu Liu, Lingfeng Li, Bozhou Chen, Ang Li, Qirui Zheng, Xionghui Yang, Chucai Wang, Wenxin Li,
- Abstract要約: 決定変換器(DT)は、自動回帰シーケンスモデリングとしてオフライン強化学習を定式化する。
本稿では,自己回帰配列からReturn-to-Go(RTG)を除去するSlimDTを提案する。
D4RLベンチマークでは、SlimDTは様々なタスクで標準DTを超え、既存の最先端メソッドに匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.196814138255951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision Transformer (DT) formulates offline reinforcement learning as autoregressive sequence modeling, achieving promising results by predicting actions from a sequence of Return-to-Go (RTG), state, and action tokens. However, RTG is a scalar that summarizes future rewards, containing far less information than typical state or action vectors, yet it consumes the same computational budget per token. Worse, the self-attention cost of Transformers grows quadratically with sequence length, so including RTG as a separate token adds unnecessary overhead. We propose SlimDT, which removes RTG from the autoregressive sequence. Instead, we inject RTG information into the state representations before the sequential modeling step, allowing the Transformer to process only a compact (state, action) sequence. This reduces the sequence length by one-third, directly improving inference efficiency. On the D4RL benchmark, SlimDT surpasses standard DT across various tasks and achieves performance comparable to existing state-of-the-art methods. Decoupling a sparse conditioning signal from an information-rich sequence thus yields both computational gains and higher task performance.
- Abstract(参考訳): Decision Transformer (DT) は、自動回帰シーケンスモデリングとしてオフライン強化学習を定式化し、RTG(Return-to-Go)、状態、およびアクショントークンのシーケンスからアクションを予測することによって、有望な結果を達成する。
しかし、RTGは将来の報酬を要約するスカラーであり、通常の状態やアクションベクトルよりもはるかに少ない情報を含んでいるが、トークンごとに同じ計算予算を消費する。
さらに悪いことに、Transformersの自己保持コストはシーケンス長の2倍に増加するため、RTGを別のトークンとして含むと、不要なオーバーヘッドが生じる。
自己回帰配列からRTGを除去するSlimDTを提案する。
代わりに、シーケンシャルなモデリングステップの前にRTG情報を状態表現に注入し、Transformerが処理できるのは、コンパクトな(状態、動作)シーケンスのみである。
これによりシーケンス長が3分の1減少し、推論効率が向上する。
D4RLベンチマークでは、SlimDTは様々なタスクで標準DTを超え、既存の最先端メソッドに匹敵するパフォーマンスを達成する。
スパース条件信号と情報豊富なシーケンスを分離すると、計算ゲインと高いタスク性能の両方が得られる。
関連論文リスト
- Decoupling Return-to-Go for Efficient Decision Transformer [6.429850804144503]
Decision Transformer (DT) はオフライン強化学習のための強力なシーケンスモデリング手法を確立した。
Decoupled DT (DDT) は、Transformerを通して観測シーケンスとアクションシーケンスのみを処理することで、アーキテクチャを単純化する。
実験の結果,DDTはDTを著しく上回り,最先端のDTと競合する性能を確立していることがわかった。
論文 参考訳(メタデータ) (2026-01-22T13:42:08Z) - OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender [32.265739328468584]
OneTransは、ユーザー・ビヘイビア・シーケンス・モデリングと機能相互作用を同時に実行する統合トランスフォーマー・バックボーンである。
オンラインA/Bテストでは、OneTransはパラメータの増加とともに効率よくスケールし、強いベースラインを一貫して上回り、ユーザ当たりのGMVは5.68%上昇する。
論文 参考訳(メタデータ) (2025-10-30T03:30:12Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Directed Acyclic Transformer for Non-Autoregressive Machine Translation [93.31114105366461]
Directed Acyclic Transfomer (DA-Transformer) は、DAG (Directed Acyclic Graph) の隠れ状態を表す。
DA-Transformerは、平均して約3 BLEUで以前のNATよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-05-16T06:02:29Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。