Fugu-MT 論文翻訳(概要): Improving Sample Efficiency and Multi-Agent Communication in RL-based Train Rescheduling

論文の概要: Improving Sample Efficiency and Multi-Agent Communication in RL-based Train Rescheduling

arxiv url: http://arxiv.org/abs/2004.13439v1
Date: Tue, 28 Apr 2020 11:46:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 22:33:40.528787
Title: Improving Sample Efficiency and Multi-Agent Communication in RL-based Train Rescheduling
Title（参考訳）: rl型列車再スケジュールにおけるサンプル効率向上とマルチエージェント通信
Authors: Dano Roost, Ralph Meier, Stephan Huschauer, Erik Nygren, Adrian Egli, Andreas Weiler, Thilo Stadelmann
Abstract要約: 第6回Flatland International competition for train reschedulingに出場した。本稿では,複雑な実世界の制御タスクに対する深部RLの期待に関する2つの仮説を提案する。
参考スコア（独自算出の注目度）: 0.2638878351659023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present preliminary results from our sixth placed entry to the Flatland international competition for train rescheduling, including two improvements for optimized reinforcement learning (RL) training efficiency, and two hypotheses with respect to the prospect of deep RL for complex real-world control tasks: first, that current state of the art policy gradient methods seem inappropriate in the domain of high-consequence environments; second, that learning explicit communication actions (an emerging machine-to-machine language, so to speak) might offer a remedy. These hypotheses need to be confirmed by future work. If confirmed, they hold promises with respect to optimizing highly efficient logistics ecosystems like the Swiss Federal Railways railway network.
Abstract（参考訳）: We present preliminary results from our sixth placed entry to the Flatland international competition for train rescheduling, including two improvements for optimized reinforcement learning (RL) training efficiency, and two hypotheses with respect to the prospect of deep RL for complex real-world control tasks: first, that current state of the art policy gradient methods seem inappropriate in the domain of high-consequence environments; second, that learning explicit communication actions (an emerging machine-to-machine language, so to speak) might offer a remedy. これらの仮説は今後の研究で確認する必要がある。確認されれば、スイス連邦鉄道のような高効率なロジスティクスのエコシステムを最適化することを約束する。

関連論文リスト

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation [53.03303124157899]
本稿では,統一多モーダル大言語モデル(ULM)に対するグループ相対的政策最適化による強化学習(RL)の先駆的な探索について述べる。共同最適化のための統一RLステージとタスク固有強化のための改良RLステージからなる協調強化学習フレームワークであるCoRLを紹介する。提案したCoRLでは,3つのテキスト・画像生成データセットで平均7%,9つのマルチモーダル理解ベンチマークで平均23%の改善を実現している。
論文参考訳（メタデータ） (2025-05-23T06:41:07Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。 U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。 U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文参考訳（メタデータ） (2024-08-27T05:23:45Z)
Toward Enhanced Reinforcement Learning-Based Resource Management via Digital Twin: Opportunities, Applications, and Challenges [40.73920295596231]
本稿では、ネットワークリソース管理の性能と信頼性を最適化することを目的とした、デジタルツイン(DT)強化強化学習(RL)フレームワークを提案する。これらの課題に対処するため,総合的なDTベースのフレームワークが提案され,統一的なRLベースのリソース管理のための収束速度と性能が向上する。提案するフレームワークは、安全な行動探索、長期的なリターンのより正確な推定、トレーニング収束の高速化、コンバージェンス性能の向上、様々なネットワーク条件へのリアルタイム適応を提供する。
論文参考訳（メタデータ） (2024-06-12T04:14:24Z)
Efficient Stagewise Pretraining via Progressive Subnetworks [53.00045381931778]
一般的な見方では、レイヤのドロップのような段階的なドロップ戦略は、スタック方式のアプローチと比べて効果がない。本稿では, 適切な設計で, 戦略の廃止は, 積み重ね手法よりも競争力があることを示すことによって, この概念に挑戦する。本稿では,各ステップでランダムサブネットワークのみを選択し,訓練し,段階的に拡大するランダムパートトレーニング(RAPTR)を提案する。
論文参考訳（メタデータ） (2024-02-08T18:49:09Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文参考訳（メタデータ） (2023-06-27T16:15:15Z)
Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。 1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文参考訳（メタデータ） (2023-04-18T16:23:15Z)
Federated Deep Reinforcement Learning for the Distributed Control of NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文参考訳（メタデータ） (2021-12-07T03:13:20Z)
POAR: Efficient Policy Optimization via Online Abstract State Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文参考訳（メタデータ） (2021-09-17T16:52:03Z)
Vehicular Cooperative Perception Through Action Branching and Federated Reinforcement Learning [101.64598586454571]
強化学習に基づく車両関連、リソースブロック(RB)割り当て、協調認識メッセージ(CPM)のコンテンツ選択を可能にする新しいフレームワークが提案されている。車両全体のトレーニングプロセスをスピードアップするために、フェデレーションRLアプローチが導入されます。その結果、フェデレーションRLはトレーニングプロセスを改善し、非フェデレーションアプローチと同じ時間内により良いポリシーを達成できることが示された。
論文参考訳（メタデータ） (2020-12-07T02:09:15Z)
Hierarchical Reinforcement Learning for Relay Selection and Power Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-10T04:47:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。