論文の概要: Attention Trajectories as a Diagnostic Axis for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.20591v2
- Date: Thu, 27 Nov 2025 08:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.799313
- Title: Attention Trajectories as a Diagnostic Axis for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための診断軸としての注意軌道
- Authors: Charlotte Beylier, Hannah Selder, Arthur Fleig, Simon M. Hofmann, Nico Scherf,
- Abstract要約: 本稿では,学習過程を定量的に分析して分析する科学的手法を提案する。
このアプローチは、オブジェクトとモダリティレベルでのサリエンシ情報を階層的な注意プロファイルに集約する。
この手法はアルゴリズム固有の注意バイアスを明らかにし、意図しない報酬駆動戦略を明らかにし、冗長な感覚チャネルへの過度な適合を診断する。
- 参考スコア(独自算出の注目度): 4.662814261930481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep reinforcement learning agents demonstrate high performance across domains, their internal decision processes remain difficult to interpret when evaluated only through performance metrics. In particular, it is poorly understood which input features agents rely on, how these dependencies evolve during training, and how they relate to behavior. We introduce a scientific methodology for analyzing the learning process through quantitative analysis of saliency. This approach aggregates saliency information at the object and modality level into hierarchical attention profiles, quantifying how agents allocate attention over time, thereby forming attention trajectories throughout training. Applied to Atari benchmarks, custom Pong environments, and muscle-actuated biomechanical user simulations in visuomotor interactive tasks, this methodology uncovers algorithm-specific attention biases, reveals unintended reward-driven strategies, and diagnoses overfitting to redundant sensory channels. These patterns correspond to measurable behavioral differences, demonstrating empirical links between attention profiles, learning dynamics, and agent behavior. To assess robustness of the attention profiles, we validate our findings across multiple saliency methods and environments. The results establish attention trajectories as a promising diagnostic axis for tracing how feature reliance develops during training and for identifying biases and vulnerabilities invisible to performance metrics alone.
- Abstract(参考訳): 深層強化学習エージェントは、ドメイン間で高いパフォーマンスを示すが、その内部決定プロセスは、パフォーマンス指標によってのみ評価される場合、解釈が難しいままである。
特に、どの入力機能にエージェントが依存しているか、これらの依存関係がトレーニング中にどのように進化するか、そしてそれらがどのように振舞うかは理解されていない。
本稿では,学習過程を定量的に分析して分析する科学的手法を提案する。
このアプローチは、オブジェクトとモダリティレベルでの唾液度情報を階層的な注意プロファイルに集約し、エージェントが時間とともにどのように注意を割り当てるかを定量化し、トレーニングを通して注意軌道を形成する。
Atariベンチマーク、カスタムPong環境、筋肉作動型バイオメカニカルユーザーシミュレーションに応用されたこの手法は、アルゴリズム固有の注意バイアスを明らかにし、意図しない報酬駆動戦略を明らかにし、冗長な感覚チャネルに過度に適合する診断を行う。
これらのパターンは測定可能な行動差に対応し、注意プロファイル、学習力学、エージェントの行動と経験的リンクを示す。
注意プロファイルのロバスト性を評価するため,複数手法と環境にまたがって検討を行った。
結果は、トレーニング中に機能依存がどのように発達するかを追跡し、パフォーマンスメトリクスだけで見えないバイアスや脆弱性を特定するための、有望な診断軸として、注意軌道を確立します。
関連論文リスト
- GuideAI: A Real-time Personalized Learning Solution with Adaptive Interventions [0.5833117322405447]
大規模言語モデル(LLM)は強力な学習ツールとして登場したが、学習者の認知的・生理的状態に対する認識は欠如している。
リアルタイムバイオセンサーフィードバックを統合することでLLM駆動学習を強化するマルチモーダルフレームワークである GuideAI を紹介する。
論文 参考訳(メタデータ) (2026-01-28T09:06:45Z) - AI-Driven Evaluation of Surgical Skill via Action Recognition [4.92174988745803]
マイクロアナコシス性能の自動評価のためのAI駆動型フレームワークを提案する。
マイクロアナコシススキルの5つの側面、例えば、全体的な動作実行、プロシージャクリティカルアクション中の運動品質、一般的な楽器ハンドリングについて評価する。
論文 参考訳(メタデータ) (2025-12-30T18:45:34Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Can you see how I learn? Human observers' inferences about Reinforcement Learning agents' learning processes [1.6874375111244329]
強化学習(RL)エージェントは、人間の観察者によって直感的に解釈できない学習行動を示すことが多い。
この研究は、エージェントの学習プロセスに対する人間の観察者の理解の要因に関するデータ駆動的な理解を提供する。
論文 参考訳(メタデータ) (2025-06-16T15:04:27Z) - Truly Self-Improving Agents Require Intrinsic Metacognitive Learning [59.60803539959191]
自己改善エージェントは、最小限の監督で継続的に新しい能力を取得することを目的としている。
現在のアプローチは2つの重要な制限に直面している。自己改善プロセスは、しばしば厳格であり、タスクドメイン全体にわたって一般化できない。
我々は、効果的な自己改善は、エージェントの本質的な能力として定義された固有のメタ認知学習を必要とし、自身の学習プロセスを積極的に評価し、反映し、適応させる。
論文 参考訳(メタデータ) (2025-06-05T14:53:35Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Interpretable Learning Dynamics in Unsupervised Reinforcement Learning [0.10832949790701804]
本稿では,教師なし強化学習(URL)エージェントの解釈可能性フレームワークを提案する。
DQN,RND,ICM,PPO,Transformer-RNDの5種類のエージェントを手続き的に生成する環境下で訓練した。
論文 参考訳(メタデータ) (2025-05-06T19:57:09Z) - Revealing the Learning Process in Reinforcement Learning Agents Through Attention-Oriented Metrics [0.0]
トレーニング中のRLエージェントの注意力の発達を調査するために、注意指向メトリクス(ATOM)を導入する。
ATOMは、各ゲームのバリエーションに基づいて訓練されたエージェントの注意パターンを明確化し、これらの注意パターンの違いはエージェントの行動の違いに変換する。
論文 参考訳(メタデータ) (2024-06-20T13:56:05Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - A Matter of Annotation: An Empirical Study on In Situ and Self-Recall Activity Annotations from Wearable Sensors [56.554277096170246]
In-the-wildデータ収集に焦点をあてたユーザスタディにおいて,一般的な4つのアノテーション手法の評価と対比を行う実験的検討を行った。
実際の記録プロセス中に参加者がアノテートするユーザ主導のin situアノテーションと、各日の終わりに参加者が振り返ってアノテートするリコールメソッドの両方に対して、参加者は自身のアクティビティクラスと対応するラベルを選択できる柔軟性を持っていた。
論文 参考訳(メタデータ) (2023-05-15T16:02:56Z) - Discovering Behavioral Predispositions in Data to Improve Human Activity
Recognition [1.2961180148172198]
本研究は,患者が特定の行動を示す傾向のある日や週の特定の時間に観察を行うことにより,認識性能を向上させることを提案する。
クラスタ内のすべての時間セグメントは、同じ挙動からなり、従って振舞い前沈着(BPD)を示す。
実験により、時間セグメント当たりのBPDが分かっている場合、活動認識性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2022-07-18T10:07:15Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Joint Attention for Multi-Agent Coordination and Social Learning [108.31232213078597]
共同注意がマルチエージェント協調とソーシャルラーニングを改善するメカニズムとして有用であることを示す。
共同の注意は、複数の環境にまたがる競争集中型批評家のベースラインよりも高いパフォーマンスをもたらす。
これらの結果から,共同注意は多エージェント学習に有用な帰納的バイアスである可能性が示唆された。
論文 参考訳(メタデータ) (2021-04-15T20:14:19Z) - Unsupervised Behaviour Analysis and Magnification (uBAM) using Deep
Learning [5.101123537955207]
運動行動分析は、運動障害とその介入による変化を特定する非侵襲的戦略を提供する。
偏差の検出と拡大による挙動解析のための自動深層学習アルゴリズムであるuBAM(Unsupervised Behavior Analysis and magnification)について紹介する。
中心となる側面は姿勢と行動表現の教師なし学習であり、運動の客観的比較を可能にする。
論文 参考訳(メタデータ) (2020-12-16T20:07:36Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。