Fugu-MT 論文翻訳(概要): Beyond Scalar Rewards: Distributional Reinforcement Learning with Preordered Objectives for Safe and Reliable Autonomous Driving

論文の概要: Beyond Scalar Rewards: Distributional Reinforcement Learning with Preordered Objectives for Safe and Reliable Autonomous Driving

arxiv url: http://arxiv.org/abs/2603.20230v1
Date: Fri, 06 Mar 2026 05:00:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 02:36:12.917776
Title: Beyond Scalar Rewards: Distributional Reinforcement Learning with Preordered Objectives for Safe and Reliable Autonomous Driving
Title（参考訳）: Scalar Rewards: 安全で信頼性の高い自律運転のための事前注文された目的による分散強化学習
Authors: Ahmed Abouelazm, Jonas Michel, Daniel Bogdoll, Philip Schörner, J. Marius Zöllner,
Abstract要約: プリオーダー型多目的MDP(Pr-MOMDP)を導入する。 Pr-MOMDPは、スカラー信号ではなく、目的の階層に関するアクションの推論を可能にする。分布RLを新しいペアワイズ比較計量であるQuantile Dominance (QD) で拡張し、単一の統計量に還元することなく、アクションリターン分布を評価する。
参考スコア（独自算出の注目度）: 13.01958433711007
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous driving involves multiple, often conflicting objectives such as safety, efficiency, and comfort. In reinforcement learning (RL), these objectives are typically combined through weighted summation, which collapses their relative priorities and often yields policies that violate safety-critical constraints. To overcome this limitation, we introduce the Preordered Multi-Objective MDP (Pr-MOMDP), which augments standard MOMDPs with a preorder over reward components. This structure enables reasoning about actions with respect to a hierarchy of objectives rather than a scalar signal. To make this structure actionable, we extend distributional RL with a novel pairwise comparison metric, Quantile Dominance (QD), that evaluates action return distributions without reducing them into a single statistic. Building on QD, we propose an algorithm for extracting optimal subsets, the subset of actions that remain non-dominated under each objective, which allows precedence information to shape both decision-making and training targets. Our framework is instantiated with Implicit Quantile Networks (IQN), establishing a concrete implementation while preserving compatibility with a broad class of distributional RL methods. Experiments in Carla show improved success rates, fewer collisions and off-road events, and deliver statistically more robust policies than IQN and ensemble-IQN baselines. By ensuring policies respect rewards preorder, our work advances safer, more reliable autonomous driving systems.
Abstract（参考訳）: 自律運転には、安全性、効率性、快適性など、相反する複数の目的が伴う。強化学習(RL)では、これらの目的は通常、重み付けされた和によって組み合わせられる。この制限を克服するために、プリオーダーされた多目的MDP(Pr-MOMDP)を導入し、標準MOMDPをプリオーダーオーバー報酬コンポーネントで拡張する。この構造は、スカラー信号ではなく、目的の階層に関する行動の推論を可能にする。この構造を実用的なものにするために、分布RLを新しいペアワイズ比較計量であるQuantile Dominance (QD)で拡張する。提案手法は,QDに基づいて最適サブセットを抽出するアルゴリズムを提案する。我々のフレームワークはImplicit Quantile Networks (IQN) でインスタンス化され、分散RLメソッドの幅広いクラスとの互換性を維持しながら具体的な実装を確立する。カルラでの実験では、成功率、衝突の少ない、オフロードイベントが改善し、IQNやアンサンブル-IQNのベースラインよりも統計的に堅牢なポリシーが提供された。政策がプレオーダーを尊重することを保証することで、当社の作業はより安全で信頼性の高い自動運転システムに前進します。

関連論文リスト

ADV-0: Closed-Loop Min-Max Adversarial Training for Long-Tail Robustness in Autonomous Driving [63.980630608984605]
本稿では、ゼロサムマルコフゲームとして、駆動ポリシー(ディフェンダー)と敵エージェント(アタックラー)の相互作用を扱うクローズドループのmin-max最適化フレームワークであるADV-0を提案する。これを実現するため,我々は動的敵の進化を反復的な選好学習とし,この最適性を効率的に近似し,アルゴリズムに依存しない解をゲームに提供する。実験により、多様な安全クリティカルな障害を効果的に露呈し、学習方針と運動プランナーの両方の一般化可能性を大幅に向上させることが示されている。
論文参考訳（メタデータ） (2026-03-16T12:58:31Z)
Balancing Multiple Objectives in Urban Traffic Control with Reinforcement Learning from AI Feedback [14.81819959351561]
我々は、多目的RLAIFが、努力的な報酬工学を使わずに、異なるユーザの優先順位を反映したバランスの取れたトレードオフをもたらすポリシーを作成できることを示した。 RLAIFを多目的RLに統合することは、ユーザによるポリシー学習へのスケーラブルなパスを提供する、と我々は主張する。
論文参考訳（メタデータ） (2026-02-24T09:47:25Z)
Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards [39.489554597919145]
グループ相対ポリシー最適化(GRPO)は、完了時にすべてのトークンに対して単一のスカラーの利点を割り当てる。明確なセグメントと目的を持つ構造化世代では、このカップルはセグメント間で無関係な報酬信号を生成し、客観的な干渉と不正な信用につながる。我々は、GRPO互換メソッドのファミリーであるBlockwise Advantage Estimationを提案し、それぞれの目的をそれぞれ独自の利点を割り当て、対応するテキストブロックのトークンにのみ適用する。
論文参考訳（メタデータ） (2026-02-10T19:22:37Z)
Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T13:05:32Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。 Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文参考訳（メタデータ） (2025-05-23T09:22:19Z)
Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving [10.950036191948605]
強化学習(Reinforcement Learning, RL)は、堅牢な意思決定能力によって自律運転を実現するための有望なアプローチである。本稿では,2次元楕円形関数に基づく各種駆動相互作用に対するリスク認識手法を提案する。交通密度の異なる無署名の交差点シナリオにおいて,提案した報奨の有効性を評価する。
論文参考訳（メタデータ） (2025-05-10T19:05:03Z)
Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文参考訳（メタデータ） (2024-02-23T23:22:06Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文参考訳（メタデータ） (2020-03-20T17:26:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。