Fugu-MT 論文翻訳(概要): Model Checking for Reinforcement Learning in Autonomous Driving: One Can Do More Than You Think!

論文の概要: Model Checking for Reinforcement Learning in Autonomous Driving: One Can Do More Than You Think!

arxiv url: http://arxiv.org/abs/2411.14375v1
Date: Thu, 21 Nov 2024 18:09:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.907817
Title: Model Checking for Reinforcement Learning in Autonomous Driving: One Can Do More Than You Think!
Title（参考訳）: 自律運転における強化学習のためのモデルチェック: 考える以上のことができる!
Authors: Rong Gu,
Abstract要約: 強化学習プラットフォームは、しばしばRLアルゴリズムの設計と訓練性能を強調するが、モデルと報酬関数の正しさを無視する。本稿では,自動走行システムのモデリングに形式的手法を用い,RL for ADにおけるモデルチェック(MC)の活用方法を示す。
参考スコア（独自算出の注目度）: 3.2031003471765285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most reinforcement learning (RL) platforms use high-level programming languages, such as OpenAI Gymnasium using Python. These frameworks provide various API and benchmarks for testing RL algorithms in different domains, such as autonomous driving (AD) and robotics. These platforms often emphasise the design of RL algorithms and the training performance but neglect the correctness of models and reward functions, which can be crucial for the successful application of RL. This paper proposes using formal methods to model AD systems and demonstrates how model checking (MC) can be used in RL for AD. Most studies combining MC and RL focus on safety, such as safety shields. However, this paper shows different facets where MC can strengthen RL. First, an MC-based model pre-analysis can reveal bugs with respect to sensor accuracy and learning step size. This step serves as a preparation of RL, which saves time if bugs exist and deepens users' understanding of the target system. Second, reward automata can benefit the design of reward functions and greatly improve learning performance especially when the learning objectives are multiple. All these findings are supported by experiments.
Abstract（参考訳）: ほとんどの強化学習(RL)プラットフォームは、Pythonを使用したOpenAI Gymnasiumのようなハイレベルなプログラミング言語を使用している。これらのフレームワークは、自律運転(AD)やロボット工学など、さまざまな領域でRLアルゴリズムをテストするためのさまざまなAPIとベンチマークを提供する。これらのプラットフォームは、しばしばRLアルゴリズムの設計とトレーニング性能に重点を置いているが、モデルと報酬関数の正しさは無視されている。本稿では,AD システムを形式的手法でモデル化し,モデルチェック (MC) を RL for AD でどのように利用できるかを示す。 MCとRLを組み合わせたほとんどの研究は安全シールドのような安全に焦点を当てている。しかし, 本論文では, MCがRLを強化できる面が異なっていた。まず、MCベースのモデル前分析により、センサーの精度と学習ステップサイズに関するバグを明らかにすることができる。このステップは、バグが存在する場合の時間を節約し、ユーザがターゲットシステムに対する理解を深めるRLの準備として機能する。第2に、報奨オートマトンは報奨関数の設計に有用であり、特に学習目標が複数である場合、学習性能を大幅に向上させることができる。これらの発見はすべて実験によって裏付けられている。

関連論文リスト

VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文参考訳（メタデータ） (2025-05-28T17:59:37Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。 RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。 RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文参考訳（メタデータ） (2024-11-13T07:24:14Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文参考訳（メタデータ） (2023-10-04T07:56:42Z)
SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。 SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文参考訳（メタデータ） (2022-10-27T05:30:43Z)
Automated Reinforcement Learning: An Overview [6.654552816487819]
強化学習と深層強化学習は、シーケンシャルな意思決定問題を解決する一般的な方法である。本稿では,RLの自動化に使用可能な文献と最近の研究について考察する。
論文参考訳（メタデータ） (2022-01-13T14:28:06Z)
Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文参考訳（メタデータ） (2022-01-11T12:41:43Z)
RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文参考訳（メタデータ） (2021-12-20T18:55:16Z)
Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文参考訳（メタデータ） (2021-07-18T00:00:48Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Formula RL: Deep Reinforcement Learning for Autonomous Racing using Telemetry Data [4.042350304426975]
この問題を,車両のテレメトリと連続的な動作空間からなる多次元入力を用いて強化学習タスクとして構成する。我々は,2つの実験において,Deep Deterministic Policy gradient (DDPG) の10変種をレースに投入した。研究によると、rlでトレーニングされたモデルは、オープンソースの手作りロボットよりも高速に運転できるだけでなく、未知のトラックに一般化できる。
論文参考訳（メタデータ） (2021-04-22T14:40:12Z)
Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文参考訳（メタデータ） (2020-12-24T04:07:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。