Fugu-MT 論文翻訳(概要): Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving

論文の概要: Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving

arxiv url: http://arxiv.org/abs/2407.02508v2
Date: Fri, 04 Oct 2024 03:45:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 03:37:16.632097
Title: Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving
Title（参考訳）: 実環境運転用試料効率イミティブ多点変圧器
Authors: Hang Zhou, Dan Xu, Yiding Ji,
Abstract要約: 我々はSimDT(SimDT)を提案する。 SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。結果は、Waymaxベンチマークのオープンループとクローズループ設定の両方で、人気のある模倣と強化学習アルゴリズムを上回る。
参考スコア（独自算出の注目度）: 18.34685506480288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in autonomous driving technologies involve the capability to effectively process and learn from extensive real-world driving data. Current imitation learning and offline reinforcement learning methods have shown remarkable promise in autonomous systems, harnessing the power of offline datasets to make informed decisions in open-loop (non-reactive agents) settings. However, learning-based agents face significant challenges when transferring knowledge from open-loop to closed-loop (reactive agents) environment. The performance is significantly impacted by data distribution shift, sample efficiency, the complexity of uncovering hidden world models and physics. To address these issues, we propose Sample-efficient Imitative Multi-token Decision Transformer (SimDT). SimDT introduces multi-token prediction, online imitative learning pipeline and prioritized experience replay to sequence-modelling reinforcement learning. The performance is evaluated through empirical experiments and results exceed popular imitation and reinforcement learning algorithms both in open-loop and closed-loop settings on Waymax benchmark. SimDT exhibits 41% reduction in collision rate and 18% improvement in reaching the destination compared with the baseline method.
Abstract（参考訳）: 自動運転技術の最近の進歩は、大規模な現実世界の運転データから効果的に処理し、学習する能力を含んでいる。現在の模倣学習とオフライン強化学習は、オフラインデータセットのパワーを活用して、オープンループ(非反応性エージェント)設定で情報的決定を行う、自律システムにおいて顕著な可能性を示している。しかし、学習ベースエージェントは、オープンループからクローズドループ(反応性エージェント)環境へ知識を移行する際に重大な課題に直面している。性能は、データ分散シフト、サンプル効率、隠れた世界モデルと物理学の複雑さに大きく影響している。これらの問題に対処するため,SimDT(SimDT)を提案する。 SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。この性能は実験によって評価され、結果がWaymaxベンチマークのオープンループとクローズループ設定の両方で一般的な模倣および強化学習アルゴリズムを上回る。 SimDTでは, 衝突速度が41%低下し, 目標到達率が18%向上した。

関連論文リスト

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。 S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文参考訳（メタデータ） (2025-07-29T17:26:10Z)
Cost-effective Reduced-Order Modeling via Bayesian Active Learning [12.256032958843065]
本研究では,不確実性を意識したベイズ固有分解(POD)に基づく能動的学習フレームワークBayPOD-ALを提案する。棒の温度変化を予測する実験結果から,ベイポッドALの有効性が示唆された。トレーニングデータセットよりも高時間分解能のデータセット上で,ベイポD-ALの性能を評価することにより,ベイポD-ALの一般化性と効率を実証する。
論文参考訳（メタデータ） (2025-06-27T21:23:37Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
A Knowledge-Informed Deep Learning Paradigm for Generalizable and Stability-Optimized Car-Following Models [15.34704164931383]
自動車追従モデル (CFMs) は交通流解析と自律運転の基礎である。本稿では,事前学習型大規模言語モデル(LLM)の一般化能力を軽量かつ安定性に配慮したニューラルアーキテクチャに蒸留する知識情報深層学習(KIDL)パラダイムを提案する。 KIDLを実世界のNGSIMおよびHighDデータセット上で評価し、その性能を代表的物理ベース、データ駆動、ハイブリッドCFMと比較した。
論文参考訳（メタデータ） (2025-04-19T09:33:02Z)
Learning to Drive by Imitating Surrounding Vehicles [0.6612847014373572]
模倣学習は、複雑な交通環境をナビゲートするために自動運転車を訓練するための有望なアプローチである。本研究では, 周辺車両の観測軌道を利用することで, 模倣学習の促進を図るデータ強化戦略を提案する。我々は、nuPlanデータセット上で、最先端の学習ベースプランニング手法PLUTOを用いて、我々のアプローチを評価し、この拡張手法が複雑な運転シナリオの性能向上につながることを実証した。
論文参考訳（メタデータ） (2025-03-08T00:40:47Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Continual Learning for Behavior-based Driver Identification [5.560336593474866]
行動に基づく運転者識別は、運転者の独特の運転行動に基づいて運転者を認識する新興技術である。ほとんどの研究は、ディープ・ラーニング・モデルを車内に展開するという現実的な課題を考慮に入れていない。これらの課題には、限られた計算リソースの下での運用、新しいドライバへの適応、時間の経過とともにの運転行動の変化などが含まれる。
論文参考訳（メタデータ） (2024-12-14T10:24:44Z)
Variable-Speed Teaching-Playback as Real-World Data Augmentation for Imitation Learning [6.277546031193622]
本稿では、実世界のデータセットの利点を保ちながら、力制御に適用可能な新しいデータ拡張法を提案する。位置力制御を備えた模擬学習法を用いて、双方向制御に基づく模擬学習実験を行った。その結果, 実世界の反応速度の変化により, 成功率の最大55%が向上した。
論文参考訳（メタデータ） (2024-12-04T11:51:50Z)
From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。複雑な動的トラフィックシナリオを処理できる。 CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文参考訳（メタデータ） (2024-10-03T06:45:59Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-18T19:25:57Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
Reinforcement Learning with Human Feedback for Realistic Traffic Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文参考訳（メタデータ） (2023-09-01T19:29:53Z)
End-to-end Lidar-Driven Reinforcement Learning for Autonomous Racing [0.0]
強化学習(Reinforcement Learning, RL)は、自動化とロボット工学の領域において、変革的なアプローチとして登場した。本研究は、フィードフォワード生ライダーと速度データのみを用いて、レース環境をナビゲートするRLエージェントを開発し、訓練する。エージェントのパフォーマンスは、実世界のレースシナリオで実験的に評価される。
論文参考訳（メタデータ） (2023-09-01T07:03:05Z)
Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文参考訳（メタデータ） (2023-07-28T17:29:49Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Offline Robot Reinforcement Learning with Uncertainty-Guided Human Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文参考訳（メタデータ） (2022-12-16T01:41:59Z)
Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文参考訳（メタデータ） (2022-04-09T22:07:34Z)
UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文参考訳（メタデータ） (2021-11-22T10:37:52Z)
Efficient Robotic Manipulation Through Offline-to-Online Reinforcement Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文参考訳（メタデータ） (2021-10-21T05:34:25Z)
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。人間のデータセットから学ぶ機会を強調します。
論文参考訳（メタデータ） (2021-08-06T20:48:30Z)
PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文参考訳（メタデータ） (2021-06-08T07:37:37Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)
Multiplicative Controller Fusion: Leveraging Algorithmic Priors for Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文参考訳（メタデータ） (2020-03-11T05:12:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。