論文の概要: TractRLFusion: A GPT-Based Multi-Critic Policy Fusion Framework for Fiber Tractography
- arxiv url: http://arxiv.org/abs/2601.13897v1
- Date: Tue, 20 Jan 2026 12:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.302539
- Title: TractRLFusion: A GPT-Based Multi-Critic Policy Fusion Framework for Fiber Tractography
- Title(参考訳): TractRLFusion:ファイバトラクトグラフィのためのGPTに基づくマルチクリティカルポリシー融合フレームワーク
- Authors: Ankita Joshi, Ashutosh Sharma, Anoushkrit Goel, Ranjeet Ranjan Jha, Chirag Ahuja, Arnav Bhavsar, Aditya Nigam,
- Abstract要約: トラクトグラフィーにおける永続的な課題は、急激な接続を最小化しながら、白質のトラクトを正確に再構築することである。
我々はデータ駆動型融合戦略を通じて複数のRLポリシーを統合する新しいGPTベースのポリシー融合フレームワークであるTractRLFusionを提案する。
提案手法では, 効果的な政策融合のための2段階のトレーニングデータ選択プロセスを使用し, 続いて, 堅牢性と一般化性を高めるために, マルチクリティック微調整フェーズを用いる。
- 参考スコア(独自算出の注目度): 4.322225996748633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tractography plays a pivotal role in the non-invasive reconstruction of white matter fiber pathways, providing vital information on brain connectivity and supporting precise neurosurgical planning. Although traditional methods relied mainly on classical deterministic and probabilistic approaches, recent progress has benefited from supervised deep learning (DL) and deep reinforcement learning (DRL) to improve tract reconstruction. A persistent challenge in tractography is accurately reconstructing white matter tracts while minimizing spurious connections. To address this, we propose TractRLFusion, a novel GPT-based policy fusion framework that integrates multiple RL policies through a data-driven fusion strategy. Our method employs a two-stage training data selection process for effective policy fusion, followed by a multi-critic fine-tuning phase to enhance robustness and generalization. Experiments on HCP, ISMRM, and TractoInferno datasets demonstrate that TractRLFusion outperforms individual RL policies as well as state-of-the-art classical and DRL methods in accuracy and anatomical reliability.
- Abstract(参考訳): トラクトグラフィーは、白質繊維経路の非侵襲的再構築において重要な役割を担い、脳の接続性や正確な神経外科的計画を支援する。
従来の手法は主に古典的決定論的アプローチと確率論的アプローチに依存していたが,近年の進歩は,トラクション再構築を改善するために,教師付き深層学習(DL)と深部強化学習(DRL)の恩恵を受けている。
トラクトグラフィーにおける永続的な課題は、急激な接続を最小化しながら、白質のトラクトを正確に再構築することである。
そこで我々は,データ駆動型融合戦略を通じて複数のRLポリシーを統合する新しいGPTベースのポリシー融合フレームワークであるTractRLFusionを提案する。
提案手法では, 効果的な政策融合のための2段階のトレーニングデータ選択プロセスを使用し, 続いて, 堅牢性と一般化性を高めるために, マルチクリティック微調整フェーズを用いる。
HCP、ISMRM、TractoInfernoデータセットの実験では、TractRLFusionは個々のRLポリシーや最先端の古典的およびDRLメソッドよりも正確で解剖学的信頼性が高いことが示されている。
関連論文リスト
- Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。
特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。
また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文 参考訳(メタデータ) (2025-08-11T17:39:45Z) - Exploring the robustness of TractOracle methods in RL-based tractography [3.248213046105204]
強化学習(Reinforcement Learning, RL)は, トラクトグラフィーのフレームワークとして注目されている。
IRT(Iterative Reward Training)と呼ばれる新しいRLトレーニングスキームを導入する。
論文 参考訳(メタデータ) (2025-07-15T16:57:00Z) - A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance [3.4354636842203026]
正規化マルコフ決定過程(MDP)の解法としてPGDA-RLを提案する。
PGDA-RLは、経験的リプレイに基づく勾配推定と、基礎となるネスト最適化問題の2段階の分解を統合する。
PGDA-RL は正規化 MDP の最適値関数とポリシーにほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-05-07T15:18:43Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [70.82499103200402]
人間のフィードバックからの強化学習は、大規模言語モデルと人間の好みを合わせることに顕著な成功を収めた。
オンラインRLHFは有望な方向性として現れ、反復的なデータ収集と改善を可能にしている。
本稿では,過去のデータを保存する必要をなくし,反復毎に一定時間更新を行うワンパス報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Tract-RLFormer: A Tract-Specific RL policy based Decoder-only Transformer Network [6.879358907713364]
教師付き学習と強化学習の両方を利用したネットワークである Tract-RLFormer を提案する。
トラクション固有のアプローチを用いることで、従来のセグメンテーションプロセスをバイパスして、ネットワークは関心のトラクションを直接的に記述する。
われわれの手法は、脳の白質領域を正確にマッピングする能力を示し、トラクトグラフィーの飛躍的な進歩を示す。
論文 参考訳(メタデータ) (2024-11-08T18:18:18Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。