論文の概要: Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy
- arxiv url: http://arxiv.org/abs/2406.01853v1
- Date: Mon, 3 Jun 2024 23:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:32:51.357906
- Title: Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy
- Title(参考訳): 放射線治療におけるリーフシークエンシングとマルチエージェント強化学習
- Authors: Riqiang Gao, Florin C. Ghesu, Simon Arberet, Shahab Basiri, Esa Kuusela, Martin Kraus, Dorin Comaniciu, Ali Kamen,
- Abstract要約: 本稿では,リーフシークエンシングのための多エージェントフレームワークにおいて,強化リーフシークエンサー(RLS)と呼ばれる新しい強化学習モデルを提案する。
RLSモデルは、大規模なトレーニングを通じて、時間を要する反復最適化ステップを改善し、報酬機構の設計を通じて運動パターンを制御することができる。
- 参考スコア(独自算出の注目度): 4.082366416590874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contemporary radiotherapy planning (RTP), a key module leaf sequencing is predominantly addressed by optimization-based approaches. In this paper, we propose a novel deep reinforcement learning (DRL) model termed as Reinforced Leaf Sequencer (RLS) in a multi-agent framework for leaf sequencing. The RLS model offers improvements to time-consuming iterative optimization steps via large-scale training and can control movement patterns through the design of reward mechanisms. We have conducted experiments on four datasets with four metrics and compared our model with a leading optimization sequencer. Our findings reveal that the proposed RLS model can achieve reduced fluence reconstruction errors, and potential faster convergence when integrated in an optimization planner. Additionally, RLS has shown promising results in a full artificial intelligence RTP pipeline. We hope this pioneer multi-agent RL leaf sequencer can foster future research on machine learning for RTP.
- Abstract(参考訳): 現代の放射線治療計画(RTP)では、キーモジュールのリーフシークエンシングは主に最適化に基づくアプローチによって対処される。
本稿では,リーフシークエンシングのためのマルチエージェントフレームワークにおいて,強化リーフシークエンサー(RLS)と呼ばれる新しい深層強化学習(DRL)モデルを提案する。
RLSモデルは、大規模なトレーニングを通じて、時間を要する反復最適化ステップを改善し、報酬機構の設計を通じて運動パターンを制御することができる。
我々は、4つのメトリクスを持つ4つのデータセットの実験を行い、我々のモデルを主要な最適化シーケンサと比較した。
その結果,提案したRSSモデルはフラエンス再構成誤差を低減し,最適化プランナに組み込むとより高速に収束できることがわかった。
さらに、RSSは完全な人工知能RTPパイプラインで有望な結果を示している。
我々は、この先駆的なマルチエージェントRLリーフシーケンサーが、RTPのための機械学習の研究を後押しできることを期待している。
関連論文リスト
- Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [9.153197757307762]
確率拡散モデル(DM)は視覚生成のための強力なフレームワークである。
DMを効率的に調整する方法は重要な課題である。
本稿では,DMのための第0次情報調整パラダイムであるRecursive Likelihood Ratio (RLR)を提案する。
論文 参考訳(メタデータ) (2025-02-02T03:00:26Z) - S-LoRA: Scalable Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、逐次的なタスクに事前訓練されたモデルのパワーを活用するための有望なアプローチとして現れてきた。
本稿では,LRAパラメータの方向と大きさの学習を段階的に分離する,CL(特にクラスインクリメンタルラーニング)のためのスケーラブル低ランク適応(S-LoRA)手法を提案する。
我々の理論的および実証的な分析により、S-LoRAは重なり合う低損失領域に収束する低損失軌道を辿る傾向にあり、CLの安定性と塑性のトレードオフは良好であることが示された。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。
本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。
ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:11:59Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
本稿では,LLMパラメータをクラスタ内で動的に再分割するパラメータReaLlocationを提案する。
本稿では、RLHFトレーニングのための効率的な実行計画を自動的に発見・実行できる先駆的なシステムであるReaLHFを紹介する。
論文 参考訳(メタデータ) (2024-06-20T08:04:07Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - FORLORN: A Framework for Comparing Offline Methods and Reinforcement
Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。
このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文 参考訳(メタデータ) (2022-09-08T12:58:09Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。