論文の概要: TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse
- arxiv url: http://arxiv.org/abs/2602.01439v1
- Date: Sun, 01 Feb 2026 21:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.784961
- Title: TQL: Scaling Q-Functions with Transformers by Preventing Attention Collapse
- Title(参考訳): TQL: 注意崩壊防止によるトランスフォーマーによるQ-Functionのスケーリング
- Authors: Perry Dong, Kuo-Han Hung, Alexander Swerdlow, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: Transformer Q-Learningは、強化学習における学習価値関数における変換器のスケーリングポテンシャルを解放する。
当社のアプローチでは,最小のネットワークサイズから最大規模のネットワークサイズへのスケールアップでは,最大で43%のパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 100.14462819905822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite scale driving substantial recent advancements in machine learning, reinforcement learning (RL) methods still primarily use small value functions. Naively scaling value functions -- including with a transformer architecture, which is known to be highly scalable -- often results in learning instability and worse performance. In this work, we ask what prevents transformers from scaling effectively for value functions? Through empirical analysis, we identify the critical failure mode in this scaling: attention scores collapse as capacity increases. Our key insight is that we can effectively prevent this collapse and stabilize training by controlling the entropy of the attention scores, thereby enabling the use of larger models. To this end, we propose Transformer Q-Learning (TQL), a method that unlocks the scaling potential of transformers in learning value functions in RL. Our approach yields up to a 43% improvement in performance when scaling from the smallest to the largest network sizes, while prior methods suffer from performance degradation.
- Abstract(参考訳): 大規模化による機械学習の進歩にもかかわらず、強化学習(RL)法は主に小さな値関数を用いる。
高いスケーラビリティで知られているトランスフォーマーアーキテクチャを含む、価値関数のネイティブスケーリングは、しばしば不安定性とパフォーマンスの悪化を学習する。
本稿では、値関数に対して、トランスフォーマーのスケーリングを効果的に防ぐ方法について尋ねる。
経験的分析により、このスケーリングにおいて重要な障害モードが特定される: キャパシティが増加するにつれて、注意スコアが崩壊する。
我々の重要な洞察は、注意点のエントロピーを制御して、この崩壊を効果的に防止し、トレーニングを安定させることで、より大きなモデルの使用を可能にすることである。
この目的のために,変換器Q-Learning(TQL)を提案する。これはRLの学習値関数において,変換器のスケーリングポテンシャルを解放する手法である。
提案手法では,最小のネットワークサイズから最大規模のネットワークサイズへのスケーリングでは最大43%の性能向上が達成されるが,従来の手法では性能劣化に悩まされていた。
関連論文リスト
- Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Power Transformer Fault Prediction Based on Knowledge Graphs [9.690455133923667]
広範なフォールトデータの不足により、機械学習技術を効果的に適用することは困難である。
我々は,知識グラフ(KG)技術と勾配向上決定木(GBDT)を併用した新しい手法を提案する。
本手法は, 変圧器の故障や過去の運用データに影響を及ぼす様々な要因を統合することで, 少数の高次元データから効率的に学習できるように設計されている。
論文 参考訳(メタデータ) (2024-02-11T19:14:28Z) - Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions [143.89572689302497]
大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法は,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現を実現するためにTransformerを用いている。
そこで本研究では,Q-Transformerが,多種多様な実世界のロボット操作タスクスイート上で,事前のオフラインRLアルゴリズムと模倣学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-18T21:00:38Z) - Quantizable Transformers: Removing Outliers by Helping Attention Heads
Do Nothing [18.673619610942197]
現代のトランスモデルは、アクティベーションにおいて強い外れ値を学ぶ傾向があるため、定量化が難しい。
我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意ヘッドの非常に具体的な行動と関連していることを示す。
注意機構に対する2つの簡単な(非依存的な)修正(クリップされたソフトマックスとゲートアテンション)を提案する。
論文 参考訳(メタデータ) (2023-06-22T14:39:04Z) - Center Smoothing for Certifiably Robust Vector-Valued Functions [59.46976586742266]
入力の小さな変化による出力の変化に結びついたベクトル値関数に対する検証可能なロバスト性を示す。
提案手法は,入力次元と出力次元の広いベクトル値関数を含む複数の学習課題における有効性を示す。
論文 参考訳(メタデータ) (2021-02-19T01:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。