Fugu-MT 論文翻訳(概要): Factorized Deep Q-Network for Cooperative Multi-Agent Reinforcement Learning in Victim Tagging

論文の概要: Factorized Deep Q-Network for Cooperative Multi-Agent Reinforcement Learning in Victim Tagging

arxiv url: http://arxiv.org/abs/2503.00684v1
Date: Sun, 02 Mar 2025 01:32:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.546917
Title: Factorized Deep Q-Network for Cooperative Multi-Agent Reinforcement Learning in Victim Tagging
Title（参考訳）: Victim Tagging における協調型多エージェント強化学習のためのQ-Network の因子化
Authors: Maria Ana Cardei, Afsaneh Doryab,
Abstract要約: 本稿では, 被害者のタグ付けに要する時間を最小限に抑えるために, マルチエージェントの被害者タグ付けを数学的に定式化する。本稿では,MARL(Multi-agent reinforcement learning)戦略,FDQN(Factized Deep Q-network)の有効性を検討した。
参考スコア（独自算出の注目度）: 1.3435319774513577
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mass casualty incidents (MCIs) are a growing concern, characterized by complexity and uncertainty that demand adaptive decision-making strategies. The victim tagging step in the emergency medical response must be completed quickly and is crucial for providing information to guide subsequent time-constrained response actions. In this paper, we present a mathematical formulation of multi-agent victim tagging to minimize the time it takes for responders to tag all victims. Five distributed heuristics are formulated and evaluated with simulation experiments. The heuristics considered are on-the go, practical solutions that represent varying levels of situational uncertainty in the form of global or local communication capabilities, showcasing practical constraints. We further investigate the performance of a multi-agent reinforcement learning (MARL) strategy, factorized deep Q-network (FDQN), to minimize victim tagging time as compared to baseline heuristics. Extensive simulations demonstrate that between the heuristics, methods with local communication are more efficient for adaptive victim tagging, specifically choosing the nearest victim with the option to replan. Analyzing all experiments, we find that our FDQN approach outperforms heuristics in smaller-scale scenarios, while heuristics excel in more complex scenarios. Our experiments contain diverse complexities that explore the upper limits of MARL capabilities for real-world applications and reveal key insights.
Abstract（参考訳）: マス・カジュアルティ・インシデント(MCI)は、適応的な意思決定戦略を要求する複雑さと不確実性に特徴付けられる。緊急医療対応における被害者のタグ付けステップは、迅速に完了し、その後の時間制限された対応行動を案内するための情報提供に不可欠である。本稿では,被害者のタグ付けに要する時間を最小限に抑えるために,マルチエージェントによる被害者タグ付けの数学的定式化を提案する。 5つの分散ヒューリスティックをシミュレーション実験により定式化し評価する。議論されているヒューリスティックスは、グローバルまたはローカルなコミュニケーション能力の形で状況の不確実性の様々なレベルを表す実践的なソリューションであり、実践的な制約を示している。さらに,MARL(Multi-agent reinforcement learning)戦略,FDQN(Factized Deep Q-network)の有効性について検討した。大規模なシミュレーションでは、ヒューリスティックスの間、局所的なコミュニケーションを持つ手法は、適応的な被害者タグ付けにおいてより効率的であることが示され、特に、最も近い犠牲者を再計画するオプションで選択する。全ての実験を解析したところ、我々のFDQNアプローチはより小さなシナリオではヒューリスティックスよりも優れており、より複雑なシナリオではヒューリスティックスが優れていることがわかった。我々の実験には、現実世界のアプリケーションに対するMARL能力の上限を探索し、重要な洞察を明らかにする様々な複雑さが含まれている。

関連論文リスト

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳（メタデータ） (2025-05-27T06:30:48Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
A Multi-Agent Reinforcement Learning Approach for Cooperative Air-Ground-Human Crowdsensing in Emergency Rescue [22.201769922727077]
本稿では,ヒト,UAV,UGVを考慮し,不均一な協調作業割当問題に対処する。我々は,UGVが低電池UAVのチャージを優先し,検知タスクを遂行する,新しい「ハード・コラボレーティブ」政策を導入する。本稿では,分散実行アーキテクチャに基づく新しいマルチエージェント強化学習アルゴリズムであるHECTA4ERを提案する。
論文参考訳（メタデータ） (2025-05-11T14:49:15Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文参考訳（メタデータ） (2024-01-27T02:43:45Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-04T17:56:44Z)
Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。 VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。 VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2022-11-02T00:41:32Z)
Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。動的パーソナライズされた価格設定などの問題の因果構造を形式化する。本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文参考訳（メタデータ） (2021-10-19T16:15:56Z)
ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文参考訳（メタデータ） (2021-09-14T16:18:35Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)
Sample-Efficient Reinforcement Learning via Counterfactual-Based Data Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文参考訳（メタデータ） (2020-12-16T17:21:13Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。