論文の概要: Learning What Matters Now: A Dual-Critic Context-Aware RL Framework for Priority-Driven Information Gain
- arxiv url: http://arxiv.org/abs/2506.06786v1
- Date: Sat, 07 Jun 2025 12:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.054347
- Title: Learning What Matters Now: A Dual-Critic Context-Aware RL Framework for Priority-Driven Information Gain
- Title(参考訳): 今何が重要かを学ぶ: 優先順位駆動型情報ゲインのための二重批判的コンテキスト認識型RLフレームワーク
- Authors: Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo,
- Abstract要約: 本稿では,CA-MIQ (Context-Aware Max-Information Q-learning) を提案する。
ビルトインシフト検出器は、過渡的な探索と選択的批評家のリセットをトリガーし、優先修正後のエージェントの再フォーカスを可能にする。
CA-MIQはミッション・サクセス・レートの約4倍の精度で達成される。
- 参考スコア(独自算出の注目度): 5.522800137785975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous systems operating in high-stakes search-and-rescue (SAR) missions must continuously gather mission-critical information while flexibly adapting to shifting operational priorities. We propose CA-MIQ (Context-Aware Max-Information Q-learning), a lightweight dual-critic reinforcement learning (RL) framework that dynamically adjusts its exploration strategy whenever mission priorities change. CA-MIQ pairs a standard extrinsic critic for task reward with an intrinsic critic that fuses state-novelty, information-location awareness, and real-time priority alignment. A built-in shift detector triggers transient exploration boosts and selective critic resets, allowing the agent to re-focus after a priority revision. In a simulated SAR grid-world, where experiments specifically test adaptation to changes in the priority order of information types the agent is expected to focus on, CA-MIQ achieves nearly four times higher mission-success rates than baselines after a single priority shift and more than three times better performance in multiple-shift scenarios, achieving 100% recovery while baseline methods fail to adapt. These results highlight CA-MIQ's effectiveness in any discrete environment with piecewise-stationary information-value distributions.
- Abstract(参考訳): SAR(High-Stakes Search-and-Rescue)ミッションで運用される自律システムは、運用優先のシフトに柔軟に対応しつつ、ミッションクリティカルな情報を継続的に収集する必要がある。
ミッションの優先順位が変わるたびに探索戦略を動的に調整する軽量な二重批判強化学習(RL)フレームワークであるCA-MIQ(Context-Aware Max-Information Q-learning)を提案する。
CA-MIQは、タスク報酬に対する標準的な外在的批判と、国家のノーベルティ、情報ロケーションの認識、リアルタイムの優先順位付けを融合させる本質的な批判とを組み合わせている。
内蔵されたシフト検出器は、過渡的な探索と選択的批評家のリセットをトリガーし、優先修正後のエージェントの再フォーカスを可能にする。
CA-MIQは、単一の優先度シフト後のベースラインよりも4倍高いミッションサクセス率、マルチシフトシナリオでの3倍以上のパフォーマンスを実現し、ベースラインメソッドが適応できない間に100%のリカバリを達成する。
これらの結果からCA-MIQの有効性が示された。
関連論文リスト
- What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - Towards Fault Tolerance in Multi-Agent Reinforcement Learning [10.314885753121905]
エージェントフォールトはマルチエージェント強化学習(MARL)アルゴリズムの性能に重大な脅威をもたらす。
本稿では,MARLの耐故障性を向上させるために,最適化されたモデルアーキテクチャとトレーニングデータサンプリング戦略を併用する。
論文 参考訳(メタデータ) (2024-11-30T16:56:29Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。