論文の概要: Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.06946v1
- Date: Mon, 10 Nov 2025 10:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.206585
- Title: Learning to Focus: Prioritizing Informative Histories with Structured Attention Mechanisms in Partially Observable Reinforcement Learning
- Title(参考訳): 集中学習:部分的に観察可能な強化学習における構造的注意機構による情報的履歴の優先順位付け
- Authors: Daniel De Dios Allegue, Jinke He, Frans A. Oliehoek,
- Abstract要約: 本研究では, 動的ヘッドの自己保持機構に, 構造的インダクティブ先行を導入する。
Atari 100kベンチマークの実験では、ほとんどの効率向上がガウス以前の結果から生じることが示されている。
- 参考スコア(独自算出の注目度): 9.233407096706744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown strong ability to model long-term dependencies and are increasingly adopted as world models in model-based reinforcement learning (RL) under partial observability. However, unlike natural language corpora, RL trajectories are sparse and reward-driven, making standard self-attention inefficient because it distributes weight uniformly across all past tokens rather than emphasizing the few transitions critical for control. To address this, we introduce structured inductive priors into the self-attention mechanism of the dynamics head: (i) per-head memory-length priors that constrain attention to task-specific windows, and (ii) distributional priors that learn smooth Gaussian weightings over past state-action pairs. We integrate these mechanisms into UniZero, a model-based RL agent with a Transformer-based world model that supports planning under partial observability. Experiments on the Atari 100k benchmark show that most efficiency gains arise from the Gaussian prior, which smoothly allocates attention to informative transitions, while memory-length priors often truncate useful signals with overly restrictive cut-offs. In particular, Gaussian Attention achieves a 77% relative improvement in mean human-normalized scores over UniZero. These findings suggest that in partially observable RL domains with non-stationary temporal dependencies, discrete memory windows are difficult to learn reliably, whereas smooth distributional priors flexibly adapt across horizons and yield more robust data efficiency. Overall, our results demonstrate that encoding structured temporal priors directly into self-attention improves the prioritization of informative histories for dynamics modeling under partial observability.
- Abstract(参考訳): 変換器は長期依存をモデル化する強力な能力を示しており、部分観測可能性の下でモデルベース強化学習(RL)の世界モデルとして採用されている。
しかし、自然言語コーパスとは異なり、RLトラジェクトリはスパースで報酬駆動であり、制御に不可欠な数少ない遷移を強調するのではなく、過去の全てのトークンに均等に重みを分散するため、標準の自己注意を非効率にする。
これを解決するために、動的ヘッドの自己保持機構に構造的帰納的事前を導入する。
(i)タスク固有のウィンドウへの注意を拘束するヘッドメモリ長の先行
(ii)過去の状態-作用対上で滑らかなガウス重み付けを学習する分布先
我々はこれらのメカニズムを,部分観測可能性下での計画を支援するTransformerベースのワールドモデルを備えたモデルベースRLエージェントUniZeroに統合する。
Atari 100kベンチマークの実験によると、ほとんどの効率向上はガウスの先行値から生じており、これは情報遷移に注意を円滑に割り当てる一方、メモリ長の先行値はしばしば、過度に制限されたカットオフで有用な信号を切断する。
特にガウス的注意は、UniZeroよりも平均的な人間正規化スコアが77%向上した。
これらの結果から,非定常時間依存性を持つ部分観測可能なRL領域では,離散メモリウィンドウは確実に学習することが困難であり,スムーズな分布前処理は水平方向に柔軟に適応し,より堅牢なデータ効率が得られることが示唆された。
全体として、構造化された時間的事前情報を自己注意に直接符号化することで、部分観測可能性の下での動的モデリングにおける情報的ヒストリーの優先順位付けが向上することを示す。
関連論文リスト
- SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - Powerformer: A Transformer with Weighted Causal Attention for Time-series Forecasting [50.298817606660826]
我々は,非因果重みをスムーズな重み付き崩壊に応じて再加重する因果重みに置き換える新しいトランスフォーマーであるPowerformerを紹介する。
我々の実証実験の結果,Powerformer は公開時系列ベンチマークで最先端の精度を達成できた。
分析の結果、トレーニング中にモデルの局所性バイアスが増幅され、時系列データとパワールールに基づく注意の相互作用が示されることがわかった。
論文 参考訳(メタデータ) (2025-02-10T04:42:11Z) - RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - WAVE: Weighted Autoregressive Varying Gate for Time Series Forecasting [9.114664059026767]
本稿では,AR(Autoregressive Varying GatE attention mechanism)とMA(Moving-average)を併用した重み付き自己回帰Varying GatEアテンション機構を提案する。
様々な注意機構に適応し、時系列データの中で長距離および局所的な時間パターンをキャプチャする能力を強化し、分離することができる。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Attention as Robust Representation for Time Series Forecasting [23.292260325891032]
多くの実用化には時系列予測が不可欠である。
トランスフォーマーの重要な特徴、注意機構、データ表現を強化するために動的に埋め込みを融合させ、しばしば注意重みを副産物の役割に還元する。
提案手法は,時系列の主表現として注目重みを高くし,データポイント間の時間的関係を利用して予測精度を向上させる。
論文 参考訳(メタデータ) (2024-02-08T03:00:50Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。