論文の概要: Exploring the robustness of TractOracle methods in RL-based tractography
- arxiv url: http://arxiv.org/abs/2507.11486v1
- Date: Tue, 15 Jul 2025 16:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.197107
- Title: Exploring the robustness of TractOracle methods in RL-based tractography
- Title(参考訳): RL-based tractography における TractOracle 法のロバスト性の検討
- Authors: Jeremi Levesque, Antoine Théberge, Maxime Descoteaux, Pierre-Marc Jodoin,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, トラクトグラフィーのフレームワークとして注目されている。
IRT(Iterative Reward Training)と呼ばれる新しいRLトレーニングスキームを導入する。
- 参考スコア(独自算出の注目度): 3.248213046105204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tractography algorithms leverage diffusion MRI to reconstruct the fibrous architecture of the brain's white matter. Among machine learning approaches, reinforcement learning (RL) has emerged as a promising framework for tractography, outperforming traditional methods in several key aspects. TractOracle-RL, a recent RL-based approach, reduces false positives by incorporating anatomical priors into the training process via a reward-based mechanism. In this paper, we investigate four extensions of the original TractOracle-RL framework by integrating recent advances in RL, and we evaluate their performance across five diverse diffusion MRI datasets. Results demonstrate that combining an oracle with the RL framework consistently leads to robust and reliable tractography, regardless of the specific method or dataset used. We also introduce a novel RL training scheme called Iterative Reward Training (IRT), inspired by the Reinforcement Learning from Human Feedback (RLHF) paradigm. Instead of relying on human input, IRT leverages bundle filtering methods to iteratively refine the oracle's guidance throughout training. Experimental results show that RL methods trained with oracle feedback significantly outperform widely used tractography techniques in terms of accuracy and anatomical validity.
- Abstract(参考訳): トラクトグラフィーアルゴリズムは拡散MRIを利用して脳の白質の線維構造を再構築する。
機械学習のアプローチの中で、強化学習(RL)はトラクトグラフィーの有望なフレームワークとして登場し、いくつかの重要な側面において従来の手法よりも優れている。
最近のRLベースのアプローチであるTractOracle-RLは、報酬ベースのメカニズムを通じて、解剖学的事前処理をトレーニングプロセスに組み込むことで、偽陽性を減らす。
本稿では,RLの最近の進歩を統合することで,TractOracle-RLフレームワークの4つの拡張について検討し,その性能を5つの拡散MRIデータセットで評価する。
その結果, オラクルとRLフレームワークを組み合わせることで, 特定の手法やデータセットによらず, 一貫して堅牢かつ信頼性の高いトラクトグラフィが実現できた。
また、RLHF(Reinforcement Learning from Human Feedback)パラダイムにインスパイアされた、IRT(Iterative Reward Training)と呼ばれる新しいRLトレーニングスキームを導入する。
IRTは、人間の入力に頼る代わりに、バンドルフィルタリング手法を利用して、トレーニングを通してオラクルのガイダンスを反復的に洗練します。
実験の結果, オラクルフィードバックを用いたRL法は, 精度, 解剖学的妥当性において, 広く用いられているトラクトグラフィー法よりも有意に優れていた。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Filtering Learning Histories Enhances In-Context Reinforcement Learning [12.697029805927398]
トランスフォーマーモデル(TM)は、テキスト内強化学習能力に優れていた。
我々は、ICRLを強化するために、単純で効果的な学習履歴フィルタリング(LHF)を提案する。
LHFは、データセット前処理によるソースの最適化を回避するための最初のアプローチである。
論文 参考訳(メタデータ) (2025-05-21T06:00:41Z) - One Framework to Rule Them All: Unifying RL-Based and RL-Free Methods in RLHF [2.1212179660694104]
本稿では,RLHF(Reinforcement Learning from Human Feedback)とLRM(Large Reasoning Models)に対処するために,RLベースおよびRLフリーの手法について検討する。
我々は、ニューラルネットワークによる帯域予測の観点から、いくつかのRLベースおよびRLフリーアルゴリズムを再解釈する。
これにより、完全なRLコンテキスト内で標準RLHFの目的を詳細に導出し、ニューラルネットワークのバンドイット予測と等価性を示す。
論文 参考訳(メタデータ) (2025-03-25T10:23:26Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。
提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。
我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - TractOracle: towards an anatomically-informed reward function for RL-based tractography [3.5484394028357373]
強化学習(RL)に基づくトラクトグラフィーは、機械学習や古典的なトラクトグラフィーアルゴリズムと競合する代替手段である。
本稿では,ストリームライン分類に訓練された報酬ネットワークに依存する新たなRLトラクトグラフィーシステムであるTractOracleを提案する。
論文 参考訳(メタデータ) (2024-03-26T16:34:05Z) - Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning [68.02988959934498]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。