論文の概要: Attention Trajectories as a Diagnostic Axis for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.20591v1
- Date: Tue, 25 Nov 2025 18:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.607507
- Title: Attention Trajectories as a Diagnostic Axis for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための診断軸としての注意軌道
- Authors: Charlotte Beylier, Hannah Selder, Arthur Fleig, Simon M. Hofmann, Nico Scherf,
- Abstract要約: トレーニング中のRLエージェントの注意力の発達を調査するために、注意指向メトリクス(ATOM)を導入する。
ATOMは、各ゲームのバリエーションに基づいて訓練されたエージェントの注意パターンを明確化し、これらの注意パターンの違いはエージェントの行動の違いに変換する。
- 参考スコア(独自算出の注目度): 4.662814261930481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning process of a reinforcement learning (RL) agent remains poorly understood beyond the mathematical formulation of its learning algorithm. To address this gap, we introduce attention-oriented metrics (ATOMs) to investigate the development of an RL agent's attention during training. In a controlled experiment, we tested ATOMs on three variations of a Pong game, each designed to teach the agent distinct behaviours, complemented by a behavioural assessment. ATOMs successfully delineate the attention patterns of an agent trained on each game variation, and that these differences in attention patterns translate into differences in the agent's behaviour. Through continuous monitoring of ATOMs during training, we observed that the agent's attention developed in phases, and that these phases were consistent across game variations. Overall, we believe that ATOM could help improve our understanding of the learning processes of RL agents and better understand the relationship between attention and learning.
- Abstract(参考訳): 強化学習(RL)エージェントの学習過程は、その学習アルゴリズムの数学的定式化以外には理解されていない。
このギャップに対処するために、トレーニング中のRLエージェントの注意の発達を調べるために、注意指向メトリクス(ATOM)を導入する。
制御された実験では,Pongゲームの3つのバリエーションでATOMをテストし,それぞれがエージェントに異なる動作を教えるように設計し,行動評価によって補完した。
ATOMは、各ゲームのバリエーションに基づいて訓練されたエージェントの注意パターンを明確化し、これらの注意パターンの違いはエージェントの行動の違いに変換する。
トレーニング中のATOMの連続的なモニタリングにより,エージェントの注意は段階的に発達し,これらのフェーズはゲームのバリエーションによって一致していることがわかった。
全体として、ATOMは、RLエージェントの学習プロセスの理解を深め、注意と学習の関係をよりよく理解するのに役立つと信じている。
関連論文リスト
- Can you see how I learn? Human observers' inferences about Reinforcement Learning agents' learning processes [1.6874375111244329]
強化学習(RL)エージェントは、人間の観察者によって直感的に解釈できない学習行動を示すことが多い。
この研究は、エージェントの学習プロセスに対する人間の観察者の理解の要因に関するデータ駆動的な理解を提供する。
論文 参考訳(メタデータ) (2025-06-16T15:04:27Z) - Truly Self-Improving Agents Require Intrinsic Metacognitive Learning [59.60803539959191]
自己改善エージェントは、最小限の監督で継続的に新しい能力を取得することを目的としている。
現在のアプローチは2つの重要な制限に直面している。自己改善プロセスは、しばしば厳格であり、タスクドメイン全体にわたって一般化できない。
我々は、効果的な自己改善は、エージェントの本質的な能力として定義された固有のメタ認知学習を必要とし、自身の学習プロセスを積極的に評価し、反映し、適応させる。
論文 参考訳(メタデータ) (2025-06-05T14:53:35Z) - Interpretable Learning Dynamics in Unsupervised Reinforcement Learning [0.10832949790701804]
本稿では,教師なし強化学習(URL)エージェントの解釈可能性フレームワークを提案する。
DQN,RND,ICM,PPO,Transformer-RNDの5種類のエージェントを手続き的に生成する環境下で訓練した。
論文 参考訳(メタデータ) (2025-05-06T19:57:09Z) - Revealing the Learning Process in Reinforcement Learning Agents Through Attention-Oriented Metrics [0.0]
トレーニング中のRLエージェントの注意力の発達を調査するために、注意指向メトリクス(ATOM)を導入する。
ATOMは、各ゲームのバリエーションに基づいて訓練されたエージェントの注意パターンを明確化し、これらの注意パターンの違いはエージェントの行動の違いに変換する。
論文 参考訳(メタデータ) (2024-06-20T13:56:05Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Joint Attention for Multi-Agent Coordination and Social Learning [108.31232213078597]
共同注意がマルチエージェント協調とソーシャルラーニングを改善するメカニズムとして有用であることを示す。
共同の注意は、複数の環境にまたがる競争集中型批評家のベースラインよりも高いパフォーマンスをもたらす。
これらの結果から,共同注意は多エージェント学習に有用な帰納的バイアスである可能性が示唆された。
論文 参考訳(メタデータ) (2021-04-15T20:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。