Fugu-MT 論文翻訳(概要): AVDDPG: Federated reinforcement learning applied to autonomous platoon control

論文の概要: AVDDPG: Federated reinforcement learning applied to autonomous platoon control

arxiv url: http://arxiv.org/abs/2207.03484v1
Date: Tue, 5 Jul 2022 21:30:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-17 18:17:13.342385
Title: AVDDPG: Federated reinforcement learning applied to autonomous platoon control
Title（参考訳）: AVDDPG:フェデレーション強化学習の自律小隊制御への応用
Authors: Christian Boin and Lei Lei and Simon X. Yang
Abstract要約: フェデレーション強化学習(FL)は、人工知能(AI)研究コミュニティにおける議論の進化のトピックである。自律走行車(AV)プラトンに適用されるFRLに関する研究はほとんどない。我々は、カスタムAV小隊環境上でのFRLフレームワークの設計と実装により、AV小隊化を改善する手段として、FRLの有効性を探求する。
参考スコア（独自算出の注目度）: 3.9475750501752516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since 2016 federated learning (FL) has been an evolving topic of discussion in the artificial intelligence (AI) research community. Applications of FL led to the development and study of federated reinforcement learning (FRL). Few works exist on the topic of FRL applied to autonomous vehicle (AV) platoons. In addition, most FRL works choose a single aggregation method (usually weight or gradient aggregation). We explore FRL's effectiveness as a means to improve AV platooning by designing and implementing an FRL framework atop a custom AV platoon environment. The application of FRL in AV platooning is studied under two scenarios: (1) Inter-platoon FRL (Inter-FRL) where FRL is applied to AVs across different platoons; (2) Intra-platoon FRL (Intra-FRL) where FRL is applied to AVs within a single platoon. Both Inter-FRL and Intra-FRL are applied to a custom AV platooning environment using both gradient and weight aggregation to observe the performance effects FRL can have on AV platoons relative to an AV platooning environment trained without FRL. It is concluded that Intra-FRL using weight aggregation (Intra-FRLWA) provides the best performance for controlling an AV platoon. In addition, we found that weight aggregation in FRL for AV platooning provides increases in performance relative to gradient aggregation. Finally, a performance analysis is conducted for Intra-FRLWA versus a platooning environment without FRL for platoons of length 3, 4 and 5 vehicles. It is concluded that Intra-FRLWA largely out-performs the platooning environment that is trained without FRL.
Abstract（参考訳）: 2016年以降、フェデレーション・ラーニング(FL)は人工知能(AI)研究コミュニティにおける議論の進化のトピックとなっている。 FLの応用は、連合強化学習(FRL)の開発と研究につながった。自律走行車(AV)プラトンに適用されるFRLに関する研究はほとんどない。加えて、ほとんどのFRL研究は単一の集約法(通常は重みまたは勾配の集約)を選択する。 AV小隊環境上でのFRLフレームワークの設計と実装により、AV小隊化を改善する手段としてFRLの有効性を検討する。 AVプラトン化におけるFRLの適用は,(1)プラトン間FRL(Inter-FRL),(2)プラトン間FRL(Intra-FRL),(2)プラトン間FRL(Intra-FRL)の2つのシナリオで研究される。 In-FRLとIntra-FRLの両方を、勾配と重み付けの両方を用いてカスタムのAV小隊環境に適用し、FRLなしで訓練されたAV小隊環境と比較して、FRLがAV小隊に与える影響を観察する。 Intra-FRLWA (Intra-FRLWA) を用いたFRLは, AV小隊の制御に最適である。さらに, AV小隊におけるFRLの重み凝集は, 勾配凝集に対する性能向上をもたらすことがわかった。最後に,長さ3,4,5両の小隊に対してFRLのない小隊環境に対して,FRLWA内における性能解析を行った。 FRLWAはFRLを使わずに訓練された小隊環境よりも優れていた。

関連論文リスト

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。 RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:44Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。 U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。 U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文参考訳（メタデータ） (2024-08-27T05:23:45Z)
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。 VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文参考訳（メタデータ） (2024-06-14T17:49:55Z)
Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文参考訳（メタデータ） (2024-05-22T13:39:33Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
Local Environment Poisoning Attacks on Federated Reinforcement Learning [1.5020330976600738]
フェデレートラーニング(FL)は、従来の強化ラーニング(RL)タスクを解決する一般的なツールとなっている。フェデレートされたメカニズムは、トレーニングされたポリシーを誤解させる可能性のある悪意のあるエージェントによる毒殺システムを公開する。本稿では、FRL中毒を最適化問題として特徴付けるための一般的な枠組みを提案し、政策に基づくFRLに適用可能な中毒プロトコルを設計する。
論文参考訳（メタデータ） (2023-03-05T17:44:23Z)
Transmit Power Control for Indoor Small Cells: A Method Based on Federated Reinforcement Learning [2.392377380146]
本稿では,フェデレート強化学習(FRL)に基づく分散セル電力制御方式を提案する。異なる屋内環境のモデルはトレーニングプロセス中にグローバルモデルに集約され、中央サーバは更新されたモデルを各クライアントにブロードキャストする。一般化実験の結果, FRLモデルをベースモデルとして用いることにより, 新しい環境下でのモデルの収束速度が向上することが示された。
論文参考訳（メタデータ） (2022-08-31T14:46:09Z)
All You Need Is Supervised Learning: From Imitation Learning to Meta-RL With Upside Down RL [0.5735035463793008]
上向き強化学習(UDRL)は、従来のRLの目的関数の戻り値の使用をひっくり返す。 UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLのいくつかの大きな問題を回避している。
論文参考訳（メタデータ） (2022-02-24T08:44:11Z)
Federated Reinforcement Learning: Techniques, Applications, and Open Challenges [4.749929332500373]
連合強化学習(FRL)は、強化学習(RL)における新興かつ有望な分野である FRLアルゴリズムは、水平連邦強化学習(HFRL)と垂直連邦強化学習(VFRL)の2つのカテゴリに分けられる。
論文参考訳（メタデータ） (2021-08-26T16:22:49Z)
Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。 ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文参考訳（メタデータ） (2020-09-14T19:11:13Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。