論文の概要: When Does Adaptive Guidance Help? Belief-Aware Privileged Distillation for Autonomous Driving Under Partial Observability
- arxiv url: http://arxiv.org/abs/2605.26155v1
- Date: Sun, 24 May 2026 04:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.202475
- Title: When Does Adaptive Guidance Help? Belief-Aware Privileged Distillation for Autonomous Driving Under Partial Observability
- Title(参考訳): 適応誘導はいつ助けになるか : 部分的可観測下での自律運転における主観的蒸留
- Authors: Mehmet Haklidir,
- Abstract要約: Guided Soft Actor-Critic (GSAC)は、特権のあるフルステートの教師から、自律運転のための部分観察学生に知識を蒸留する。
本稿では,Belief-Aware GSAC(BAGSAC)について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guided Soft Actor-Critic (GSAC) distills knowledge from a privileged full-state teacher to a partial-observation student for autonomous driving, but uses a fixed distillation coefficient lambda regardless of the agent's uncertainty. We present Belief-Aware GSAC (BA-GSAC), which modulates lambda via ensemble disagreement, and use it as a testbed for a systematic empirical study asking: when does adaptive guidance actually help? Evaluating five strategies (fixed lambda in {0.01, 0.1}, adaptive, linear decay, and vanilla SAC) across three POMDP difficulty levels on Highway-Env, we find that preliminary single-seed runs suggest benefits under mild and moderate partial observability, but under severe occlusion (evaluated with 3 seeds for all methods) the adaptive coefficient collapses to lambda_min within about 3K steps. We trace this to an observability blindness phenomenon: because the ensemble predicts partial observations, it achieves low disagreement even under heavy occlusion, modeling what is visible but unable to detect what is missing. We diagnose the root cause and propose an architectural fix (training the ensemble on full-state predictions using the guiding actor's privileged access); while not validated here, we show that even with current limitations, the warmup phase provides measurable stabilization (CV=13.3% vs. 29.8% for constant lambda=0.01). In fact, a simple deterministic linear decay schedule achieves the best severe-POMDP performance across all metrics (mean 116.5, CV=8.9%), suggesting that the scheduling effect, not the ensemble, drives the stability benefit. These findings provide practical guidance for designing uncertainty-aware teacher-student frameworks and highlight ensemble prediction targets as an important design choice.
- Abstract(参考訳): Guided Soft Actor-Critic (GSAC)は、特権のあるフルステート教師から自律運転のための部分観察学生に知識を蒸留するが、エージェントの不確実性に関係なく固定蒸留係数ラムダを使用する。
私たちはBelief-Aware GSAC(BA-GSAC)を紹介します。これは、アンサンブルの不一致によってラムダを変調し、体系的な経験的研究のためのテストベッドとして使用します。
5つの戦略({0.01, 0.1}のラムダ固定, 適応, 線形崩壊, バニラSAC)をハイウェイ-エンヴの3つのPOMDP難易度で評価したところ, 予備的な単座ランは, 緩やかで中等度な部分的観測性の下での利益を示唆するが, 厳密な閉塞(全手法で3種評価)の下では, 約3Kステップでラムダ_minに適応係数が崩壊することがわかった。
アンサンブルは部分的な観測を予測しているため、重い閉塞の下でも低い不一致を達成し、目に見えるものの、何が欠けているかを検出することができない。
我々は根本原因を診断し、アーキテクチャ上の修正(アクターの特権アクセスを用いたフルステート予測の学習)を提案するが、ここでは検証されていないが、現在の制限にもかかわらず、ウォームアップフェーズは測定可能な安定化を提供する(定数ラムダ=0.01ではCV=13.3%対29.8%)。
実際、単純な決定論的線形減衰スケジュールは全ての指標(平均116.5, CV=8.9%)で最も厳しいPOMDP性能を達成し、スケジューリング効果はアンサンブルではなく安定性の恩恵をもたらすことを示唆している。
これらの知見は,不確実性に配慮した教師支援フレームワークを設計するための実践的ガイダンスを提供し,重要な設計選択としてアンサンブル予測ターゲットを強調した。
関連論文リスト
- Adaptive Experimentation for Censored Survival Outcomes [47.342399976905]
適切な検閲の下で因果効果を推定するための適応実験のための新しい枠組みを開発する。
本稿ではアダプティブ・サバイバル・エスタ (ASE) を提案する。アダプティブ・サバイバル・エスタ (ASE) はアダプティブ・ポリシーを学習し, 平均生存効果曲線を逐次推定するフレームワークである。
フレームワークには3つの大きな利点がある: (i) ニュアンス推定のための任意の機械学習モデルに対応する; (ii) クローズドフォームの効率-最適割当ポリシーによってガイドされる; (iii) 強力な理論的保証を持つ。
論文 参考訳(メタデータ) (2026-05-18T14:21:44Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance [9.771590610969918]
WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
論文 参考訳(メタデータ) (2026-03-28T17:25:11Z) - Deconstructing the Failure of Ideal Noise Correction: A Three-Pillar Diagnosis [82.06444754727156]
ノイズ補正法は,まだ訓練中の性能低下に悩まされていることを示す。
このことは、失敗が基本的に$T$推定の問題ではなく、より根深い欠陥に起因することを、説得力強く示している。
我々は、マクロ収束状態、微視的最適化ダイナミクス、ノイズラベルから何が学べるかについての情報理論的限界の3つのレベルをリンクする統合分析を提供する。
論文 参考訳(メタデータ) (2026-03-13T13:53:04Z) - Calibrated Decomposition of Aleatoric and Epistemic Uncertainty in Deep Features for Inference-Time Adaptation [3.018583625592182]
ほとんどの推定器は、全ての不確実性モードを単一の信頼スコアに分解し、いつより多くの計算を割り当てるか、あるいは推論を調整するべきかについての信頼性の高い推論を防ぐ。
非確実性誘導推論時間選択(Uncertainty-Guided Inference-Time Selection)は,データ駆動型(データ駆動型)とモデル駆動型不確実性を,深い特徴空間で直接的に解消する軽量な推論時間フレームワークである。
論文 参考訳(メタデータ) (2025-11-15T23:47:30Z) - DATS: Distance-Aware Temperature Scaling for Calibrated Class-Incremental Learning [13.864609787260298]
連続学習(CL)は、新しいクラスの連続から1つのモデルを漸進的に学習できる能力に注目が集まっている。
安全クリティカルなアプリケーションでは、予測モデルは、その不確実性(すなわち、ターゲットイベントの真の頻度に一致した信頼スコア)を確実に伝達することができる。
本研究では,プロトタイプに基づく距離推定と距離認識キャリブレーションを組み合わせた距離認識温度スケーリング(DATS)を提案し,タスク近接を推定し,先行タスク情報なしで適応温度を割り当てる。
論文 参考訳(メタデータ) (2025-09-25T13:46:56Z) - On the Tunability of Random Survival Forests Model for Predictive Maintenance [0.0]
本稿では,ランダムサバイバルフォレスト(RSF)モデルの予測維持性について検討する。
チューナビリティを定量化する3段階のフレームワークを導入する。
論文 参考訳(メタデータ) (2025-04-20T21:27:23Z) - SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Partial Identification with Noisy Covariates: A Robust Optimization
Approach [94.10051154390237]
観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。
このロバストな最適化手法により、広範囲な因果調整法を拡張し、部分的同定を行うことができることを示す。
合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATEバウンダリを提供する。
論文 参考訳(メタデータ) (2022-02-22T04:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。