論文の概要: See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection
- arxiv url: http://arxiv.org/abs/2601.10707v1
- Date: Thu, 15 Jan 2026 18:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.288227
- Title: See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection
- Title(参考訳): 運転改善: 確率的パッチ選択による一般化可能なエンドツーエンド自動運転
- Authors: Amir Mallak, Erfan Aasi, Shiva Sreeram, Tsun-Hsuan Wang, Daniela Rus, Alaa Maalouf,
- Abstract要約: エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
- 参考スコア(独自算出の注目度): 51.59559387222532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in end-to-end autonomous driving show that policies trained on patch-aligned features extracted from foundation models generalize better to Out-of-Distribution (OOD). We hypothesize that due to the self-attention mechanism, each patch feature implicitly embeds/contains information from all other patches, represented in a different way and intensity, making these descriptors highly redundant. We quantify redundancy in such (BLIP2) features via PCA and cross-patch similarity: $90$% of variance is captured by $17/64$ principal components, and strong inter-token correlations are pervasive. Training on such overlapping information leads the policy to overfit spurious correlations, hurting OOD robustness. We present Stochastic-Patch-Selection (SPS), a simple yet effective approach for learning policies that are more robust, generalizable, and efficient. For every frame, SPS randomly masks a fraction of patch descriptors, not feeding them to the policy model, while preserving the spatial layout of the remaining patches. Thus, the policy is provided with different stochastic but complete views of the (same) scene: every random subset of patches acts like a different, yet still sensible, coherent projection of the world. The policy thus bases its decisions on features that are invariant to which specific tokens survive. Extensive experiments confirm that across all OOD scenarios, our method outperforms the state of the art (SOTA), achieving a $6.2$% average improvement and up to $20.4$% in closed-loop simulations, while being $2.4\times$ faster. We conduct ablations over masking rates and patch-feature reorganization, training and evaluating 9 systems, with 8 of them surpassing prior SOTA. Finally, we show that the same learned policy transfers to a physical, real-world car without any tuning.
- Abstract(参考訳): エンドツーエンドの自動運転の最近の進歩は、基礎モデルから抽出されたパッチアライメント機能に基づいて訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)をより良く一般化していることを示している。
自己認識機構のため、各パッチ機能は、異なる方法で表現された他のすべてのパッチから情報を暗黙的に埋め込み、保持し、それら記述子を非常に冗長にする、という仮説を立てる。
分散の90ドル%は主成分17/64ドルで、強い相互相関が広まっています。
このような重なり合う情報のトレーニングは、急激な相関に過度に適合するポリシーを導き、OODの堅牢性を損なう。
我々は、より堅牢で、一般化可能で、効率的である学習ポリシーに対して、シンプルで効果的なアプローチである確率パッチ選択(SPS)を提案する。
各フレームに対して、SPSは少数のパッチ記述子をランダムにマスクし、残りのパッチの空間的レイアウトを保ちながら、ポリシーモデルにそれらを供給しない。
したがって、このポリシーは異なる確率的だが、(同じ)シーンの完全なビューを備えており、パッチのすべてのランダムなサブセットは、世界の異なるが、それでも意味のあるコヒーレントな投影のように振る舞う。
このポリシーは、特定のトークンが生存する不変な特徴に基づいて決定を下す。
すべてのOODシナリオにおいて、我々の手法は最先端(SOTA)よりも優れており、平均的な改善は6.2ドル%、クローズドループシミュレーションでは最大20.4ドル%、より高速な2.4ドルである。
マスク率とパッチ機能の再編成, トレーニング, 9 システムの評価を行い, その内8 つは SOTA を上回りました。
最後に、学習済みのポリシーが、チューニングなしで物理的な現実世界の車に転送されることを示す。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Moments Matter:Stabilizing Policy Optimization using Return Distributions [9.430246534202857]
連続制御タスクでは、小さなパラメータシフトでさえ不安定な歩行を生み出す。
環境に配慮した代替案を提案する。
論文 参考訳(メタデータ) (2026-01-05T05:27:11Z) - Model Predictive Control is almost Optimal for Heterogeneous Restless Multi-armed Bandits [6.402634424631123]
ランダムなラウンドリングを持つ自然な有限水平LP更新ポリシーは、無限時間平均報酬問題において$O(log Nsqrt1/N)$Optimity gapを達成することを示す。
本研究は, 共分散性の概念を提唱し, 予測制御文学の手法を取り入れたものである。
論文 参考訳(メタデータ) (2025-11-11T10:53:49Z) - AutoPrune: Each Complexity Deserves a Pruning Policy [58.448785378705566]
Complexity Pruning(AutoPrune)は、プルングポリシーをさまざまなサンプルやタスクの複雑さに合わせて調整する、トレーニングフリーのプラグイン・アンド・プレイフレームワークである。
我々はAutoPruneを、標準的な視覚適応タスクと、自律運転のためのビジョン・ランゲージ・アクションモデルで評価する。
論文 参考訳(メタデータ) (2025-09-28T15:09:00Z) - Patch Pruning Strategy Based on Robust Statistical Measures of Attention Weight Diversity in Vision Transformers [0.7673339435080445]
本稿では,複数の注目頭間での注目重みのばらつきに基づいて,各パッチの重要性を評価するパッチプルーニング戦略を提案する。
このアプローチは、特徴表現の異なる部分空間にまたがる多様な注意パターンを捉えることを目的としたマルチヘッド自己注意の設計に着想を得たものである。
論文 参考訳(メタデータ) (2025-07-25T11:31:17Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Anytime-valid off-policy inference for contextual bandits [34.721189269616175]
コンテキストバンディットアルゴリズムは、観測されたコンテキストを$X_t$からアクションにマッピングする。
データの収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を推定することは、しばしば関心がある。
我々は、過去の作業で不要な条件を緩和するOPE推論のための包括的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:53Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。