論文の概要: Unified token representations for sequential decision models
- arxiv url: http://arxiv.org/abs/2510.21448v1
- Date: Fri, 24 Oct 2025 13:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.425603
- Title: Unified token representations for sequential decision models
- Title(参考訳): 逐次決定モデルのための統一トークン表現
- Authors: Zhuojing Tian, Yushu Chen,
- Abstract要約: 本稿では,復号,状態,アクションを単一トークンにマージし,シーケンス長とモデル複雑性を大幅に低減する統一トークン表現(UTR)を提案する。
我々は,変圧器とゲートCNNのバックボーン上に構築されたUDTとUDCの2つの変種を開発した。
- 参考スコア(独自算出の注目度): 0.07812854697536452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have demonstrated strong potential in offline reinforcement learning (RL) by modeling trajectories as sequences of return-to-go, states, and actions. However, existing approaches such as the Decision Transformer(DT) and its variants suffer from redundant tokenization and quadratic attention complexity, limiting their scalability in real-time or resource-constrained settings. To address this, we propose a Unified Token Representation (UTR) that merges return-to-go, state, and action into a single token, substantially reducing sequence length and model complexity. Theoretical analysis shows that UTR leads to a tighter Rademacher complexity bound, suggesting improved generalization. We further develop two variants: UDT and UDC, built upon transformer and gated CNN backbones, respectively. Both achieve comparable or superior performance to state-of-the-art methods with markedly lower computation. These findings demonstrate that UTR generalizes well across architectures and may provide an efficient foundation for scalable control in future large decision models.
- Abstract(参考訳): トランスフォーマーは、軌道を「戻り」、状態、行動」のシーケンスとしてモデル化することで、オフライン強化学習(RL)に強い可能性を示してきた。
しかし、Decision Transformer(DT)などの既存のアプローチでは、冗長なトークン化と二次的な注意の複雑さに悩まされ、リアルタイムやリソース制約のある設定でのスケーラビリティが制限される。
そこで本研究では,復号,状態,アクションを単一トークンにマージする統一トークン表現(UTR)を提案し,シーケンス長とモデル複雑性を大幅に低減する。
理論的解析により、UTRはより厳密なラデマッハ複雑性境界を導き、一般化の改善を示唆している。
さらに、変換器とゲートCNNのバックボーン上に構築されたUDTとUDCの2つのバリエーションを開発します。
どちらも、非常に低い計算で最先端の手法に匹敵する、あるいは優れた性能を実現している。
これらの結果から,UTRはアーキテクチャ全体にわたって十分に一般化し,将来の大規模意思決定モデルにおいて,スケーラブルな制御のための効率的な基盤を提供する可能性が示唆された。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Hyper-Transforming Latent Diffusion Models [16.86455404636477]
Inlicit Neural Representations (INR) と Transformer-based hypernetworks を潜在変数モデルに組み込むことにより,関数の新たな生成フレームワークを提案する。
我々のフレームワークは、標準デコーダをTransformerベースのハイパーネットワークに置き換えることで、潜在拡散モデル(LDM)をINR生成に拡張する。
これにより、既存の生成モデルを完全な再トレーニングを必要とせず、INRベースの表現に効率的に適応することができる。
論文 参考訳(メタデータ) (2025-04-23T10:01:18Z) - Autoregressive + Chain of Thought = Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer [29.970200877158764]
ニューラルモデルにおけるリカレント構造が推論能力と計算可能性に与える影響について検討する。
我々は、CoTアプローチが繰り返し計算を模倣し、自己回帰と再発の間のブリッジとして機能する方法について光を当てた。
論文 参考訳(メタデータ) (2024-09-14T00:30:57Z) - Separations in the Representational Capabilities of Transformers and Recurrent Architectures [27.783705012503237]
我々は,トランスフォーマーとRNNの表現能力の違いを,実践的妥当性のいくつかのタスクで分析する。
対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。
また、ログサイズの2層トランスは、最寄りのアルゴリズムをフォワードパスで実装できることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:31:30Z) - Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。