論文の概要: RECTOR: Priority-Aware Rule-Based Reranking for Compliance-Aware Autonomous Driving Trajectory Selection
- arxiv url: http://arxiv.org/abs/2605.25095v1
- Date: Sun, 24 May 2026 14:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.755492
- Title: RECTOR: Priority-Aware Rule-Based Reranking for Compliance-Aware Autonomous Driving Trajectory Selection
- Title(参考訳): RECTOR: コンプライアンスを意識した自律走行軌道選択のための優先ルールに基づくリランク
- Authors: Hadi Hajieghrary, Benedikt Walter, Chaitanya Shinde, Paul Schmitt, Miguel Hurtado,
- Abstract要約: 本稿は、テキストスクリプタ(Rule-Enforced Constrained Trajectory Orchestrator)について紹介する。
選択可能なプロキシとシーン条件の適用性メカニズムを通じて、タイアップされたルールブックに対して候補をスコアする。
決定論的な$varepsilon$-lexicographicルールで選択する。
- 参考スコア(独自算出の注目度): 0.8363171780853939
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous driving stacks must pick one trajectory from a multi-modal candidate set; choosing by model confidence ignores safety, traffic-law, and comfort constraints. We present \textsc{RECTOR} (Rule-Enforced Constrained Trajectory Orchestrator), a post-generation reranking layer that scores candidates against a tiered rulebook (Safety~$\succ$~Legal~$\succ$~Road~$\succ$~Comfort) via differentiable proxies and a scene-conditioned applicability mechanism, then selects with a deterministic $\varepsilon$-lexicographic rule that preserves cross-tier priority by construction -- without retraining the predictor. On the Waymo Open Motion Dataset \texttt{validation\_interactive} split (43{,}219 augmented instances, $K{=}6$), under Protocol~B (28-rule proxy catalog, oracle applicability) rule-aware selection cuts Safety+Legal violations from 28.58\% to 20.42\% and Total from 40.32\% to 32.41\% versus confidence-only on the same candidates. A uniform-weight weighted-sum baseline matches binary compliance on this benchmark -- the empirical lift comes from rule-aware ranking, while the lexicographic guarantee is the structural differentiator no weight calibration can replicate. Under adversarial confidence corruption, confidence-only selection fails in 100\% of scenarios while both rule-aware selectors reject the injected mode in $\sim$96\%. All figures are proxy-evaluator results (not a safety certificate), open-loop, 5\,s horizon, U.S.\ rules, validation split.
- Abstract(参考訳): 自律運転スタックは、マルチモーダルな候補セットから1つの軌道を選択しなければならない。
我々は、異なるプロキシとシーン条件で適用可能なメカニズムを通じて、階層化ルールブック(Safety~$\succ$~Legal〜$\succ$~Road~$\succ$~Comfort)に対して候補をスコア付けするポストジェネレーションの階層である‘textsc{RECTOR}(Rule-Enforceed Constrained Trajectory Orchestrator)を提示し、次に、予測子を調整せずに、構築による階層間優先度を保存する決定論的$\varepsilon$-lexicographyルールを選択する。
Waymo Open Motion Dataset \texttt{validation\_interactive} split (43{,}219 augmented instance, $K{=}6$), under Protocol~B (28-rule proxy catalog, oracle applicability) rule-aware selections Safety+Legal violations from 28.58\% to 20.42\% and Total from 40.32\% to 32.41\% on the same candidate。
統一重み付きsumベースラインは、このベンチマークのバイナリコンプライアンスと一致します -- 経験的なリフトはルール対応のランキングから来ています。
敵対的な信頼の腐敗の下では、信頼のみの選択は100\%のシナリオで失敗し、ルール対応のセレクタはどちらも$\sim$96\%で注入モードを拒否する。
すべての数字は、プロキシ評価結果(安全証明書ではない)、オープンループ、5\、水平線、U.S.\ルール、検証分割である。
関連論文リスト
- BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control [19.34848029403215]
現実の制御システムは、段階的な定常状態の下で動作し、状態が変化する前に、力学は長期にわたって安定している。
標準的なロバストなRL法は基本的なジレンマに直面しており、グローバルな保守的な政策は安定した期間にパフォーマンスを無駄にし、一方、局地的な適応的な政策は、体制変更が未検出であるときに破滅的な失敗を危険にさらす。
我々は,頑健なアンサンブルRLでベイズオンライン変化検出を統一するtextbfBAPRを提案する。
論文 参考訳(メタデータ) (2026-05-15T16:49:05Z) - Pause and Reflect: Conformal Aggregation for Chain-of-Thought Reasoning [8.024041325202612]
自己整合性を考慮した思考の連鎖(CoT)推論は、複数のサンプル推論パスを集約することで性能を向上させる。
集約不確実性に直接対処するCoT推論のコンフォメーション手順を導入する。
提案手法は,多数決を推理経路よりも重み付けしたスコアアグリゲーションに置き換え,共形リスク制御を用いた棄権規則を校正する。
論文 参考訳(メタデータ) (2026-05-13T20:33:59Z) - Confidence-Aware Alignment Makes Reasoning LLMs More Reliable [65.44962502963378]
CASPOは、トークンレベルの信頼度とステップワイドな論理的正しさを、個別の報酬モデルをトレーニングせずに整合させるフレームワークである。
推論中、信頼を意識した思考(CaT)を提案し、不確実な推論枝を無視可能なO(V)レイテンシで動的に生成する。
10のベンチマークと複数のモデルファミリでの実験では、CASPOは推論の信頼性と推論効率を一貫して改善している。
論文 参考訳(メタデータ) (2026-05-08T07:08:25Z) - Validated Intent Compilation for Constrained Routing in LEO Mega-Constellations [1.0152838128195467]
本稿では,高レベルな演算子の意図を低レベルなルーティング制約に変換するエンドツーエンドシステムを提案する。
我々のシステムは,運用運用に必要な安全保証を維持しつつ,オペレータ意図とネットワーク構成のセマンティックなギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T16:29:25Z) - SGM: A Statistical Godel Machine for Risk-Controlled Recursive Self-Modification [24.250783705030653]
安全編集のための最初の統計アーキテクチャである統計ゴデルマシン(SGM)を紹介する。
SGMは証明に基づく要求を統計的信頼テスト(e-values, Hoeffding bounds)に置き換え、選択された信頼度レベルで優越性が証明された場合にのみ修正を認める。
また,提案するCTHS(Confirm-Triggered Harmonic Spending)も提案する。
論文 参考訳(メタデータ) (2025-10-11T14:09:37Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。