論文の概要: Adjusting the Output of Decision Transformer with Action Gradient
- arxiv url: http://arxiv.org/abs/2510.05285v1
- Date: Mon, 06 Oct 2025 18:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.943489
- Title: Adjusting the Output of Decision Transformer with Action Gradient
- Title(参考訳): 動作勾配による決定変換器の出力調整
- Authors: Rui Lin, Yiwen Zhang, Zhicheng Peng, Minghao Lyu,
- Abstract要約: アクショングラディエント(Action Gradient、AG)は、PGに類似した機能を満たすためにアクションを直接調整する革新的な方法論である。
AGは、アクションに対するQ値の勾配を利用して、アクションを最適化する。
提案手法はDTに基づくアルゴリズムの性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 5.448998267117127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision Transformer (DT), which integrates reinforcement learning (RL) with the transformer model, introduces a novel approach to offline RL. Unlike classical algorithms that take maximizing cumulative discounted rewards as objective, DT instead maximizes the likelihood of actions. This paradigm shift, however, presents two key challenges: stitching trajectories and extrapolation of action. Existing methods, such as substituting specific tokens with predictive values and integrating the Policy Gradient (PG) method, address these challenges individually but fail to improve performance stably when combined due to inherent instability. To address this, we propose Action Gradient (AG), an innovative methodology that directly adjusts actions to fulfill a function analogous to that of PG, while also facilitating efficient integration with token prediction techniques. AG utilizes the gradient of the Q-value with respect to the action to optimize the action. The empirical results demonstrate that our method can significantly enhance the performance of DT-based algorithms, with some results achieving state-of-the-art levels.
- Abstract(参考訳): 強化学習(RL)と変圧器モデルを統合した決定変換器(DT)は、オフラインRLに新しいアプローチを導入する。
累積割引報酬を目的として最大化する古典的アルゴリズムとは異なり、DTは代わりにアクションの可能性を最大化する。
しかし、このパラダイムシフトは、軌跡の縫い付けと行動の補間という2つの重要な課題を提示している。
予測値に特定のトークンを置換したり、ポリシーグラディエント(PG)メソッドを統合するといった既存の手法は、これらの課題に個別に対処するが、固有の不安定性のために組み合わせた場合、安定してパフォーマンスを改善することができない。
そこで本研究では,PGと類似した機能を実現するために,アクションを直接調整する革新的な手法であるAction Gradient (AG)を提案する。
AGは、アクションに対するQ値の勾配を利用して、アクションを最適化する。
実験により,提案手法はDTに基づくアルゴリズムの性能を大幅に向上させることができることを示す。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。
LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-14T08:19:11Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - ACT: Empowering Decision Transformer with Dynamic Programming via
Advantage Conditioning [19.02836010747026]
決定変換器(DT)は、所望の将来のリターンで条件付けられたアクションを生成する。
我々はDTの弱点を克服するために動的プログラミングでDTを強化することを提案する。
本手法は, 環境条件によらず, 効果的な軌道縫合とロバストな動作生成を実証する。
論文 参考訳(メタデータ) (2023-09-12T02:05:43Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。