Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy

論文の概要: Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy

arxiv url: http://arxiv.org/abs/2406.01853v1
Date: Mon, 3 Jun 2024 23:55:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 20:32:51.357906
Title: Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy
Title（参考訳）: 放射線治療におけるリーフシークエンシングとマルチエージェント強化学習
Authors: Riqiang Gao, Florin C. Ghesu, Simon Arberet, Shahab Basiri, Esa Kuusela, Martin Kraus, Dorin Comaniciu, Ali Kamen,
Abstract要約: 本稿では,リーフシークエンシングのための多エージェントフレームワークにおいて,強化リーフシークエンサー(RLS)と呼ばれる新しい強化学習モデルを提案する。 RLSモデルは、大規模なトレーニングを通じて、時間を要する反復最適化ステップを改善し、報酬機構の設計を通じて運動パターンを制御することができる。
参考スコア（独自算出の注目度）: 4.082366416590874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In contemporary radiotherapy planning (RTP), a key module leaf sequencing is predominantly addressed by optimization-based approaches. In this paper, we propose a novel deep reinforcement learning (DRL) model termed as Reinforced Leaf Sequencer (RLS) in a multi-agent framework for leaf sequencing. The RLS model offers improvements to time-consuming iterative optimization steps via large-scale training and can control movement patterns through the design of reward mechanisms. We have conducted experiments on four datasets with four metrics and compared our model with a leading optimization sequencer. Our findings reveal that the proposed RLS model can achieve reduced fluence reconstruction errors, and potential faster convergence when integrated in an optimization planner. Additionally, RLS has shown promising results in a full artificial intelligence RTP pipeline. We hope this pioneer multi-agent RL leaf sequencer can foster future research on machine learning for RTP.
Abstract（参考訳）: 現代の放射線治療計画(RTP)では、キーモジュールのリーフシークエンシングは主に最適化に基づくアプローチによって対処される。本稿では,リーフシークエンシングのためのマルチエージェントフレームワークにおいて,強化リーフシークエンサー(RLS)と呼ばれる新しい深層強化学習(DRL)モデルを提案する。 RLSモデルは、大規模なトレーニングを通じて、時間を要する反復最適化ステップを改善し、報酬機構の設計を通じて運動パターンを制御することができる。我々は、4つのメトリクスを持つ4つのデータセットの実験を行い、我々のモデルを主要な最適化シーケンサと比較した。その結果,提案したRSSモデルはフラエンス再構成誤差を低減し,最適化プランナに組み込むとより高速に収束できることがわかった。さらに、RSSは完全な人工知能RTPパイプラインで有望な結果を示している。我々は、この先駆的なマルチエージェントRLリーフシーケンサーが、RTPのための機械学習の研究を後押しできることを期待している。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文参考訳（メタデータ） (2025-07-23T01:02:17Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Structuring Multiple Simple Cycle Reservoirs with Particle Swarm Optimization [4.452666723220885]
Reservoir Computing (RC)は、リカレントニューラルネットワーク(RNN)から導かれる時間効率の計算パラダイムである。本稿では,Echo State Networks (ESNs)を拡張したマルチ・リザーバ・フレームワークであるMultiple Simple Cycle Reservoirs (MSCRs)を紹介する。粒子群最適化 (PSO) を用いたMSCRの最適化は, 既存の多貯留層モデルよりも優れており, より低次元状態空間での競合予測性能を実現することが実証された。
論文参考訳（メタデータ） (2025-04-06T12:25:40Z)
Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer [9.153197757307762]
確率拡散モデル(DM)は視覚生成のための強力なフレームワークである。 DMを効率的に調整する方法は重要な課題である。本稿では,DMのための第0次情報調整パラダイムであるRecursive Likelihood Ratio (RLR)を提案する。
論文参考訳（メタデータ） (2025-02-02T03:00:26Z)
From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-01-21T04:11:59Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。本稿では,LLMパラメータをクラスタ内で動的に再分割するパラメータReaLlocationを提案する。本稿では、RLHFトレーニングのための効率的な実行計画を自動的に発見・実行できる先駆的なシステムであるReaLHFを紹介する。
論文参考訳（メタデータ） (2024-06-20T08:04:07Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文参考訳（メタデータ） (2024-02-13T18:58:16Z)
On Transforming Reinforcement Learning by Transformer: The Development Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文参考訳（メタデータ） (2022-12-29T03:15:59Z)
FORLORN: A Framework for Comparing Offline Methods and Reinforcement Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文参考訳（メタデータ） (2022-09-08T12:58:09Z)
RLFlow: Optimising Neural Network Subgraph Transformation with World Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-03T11:52:54Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。