論文の概要: TractOracle: towards an anatomically-informed reward function for RL-based tractography
- arxiv url: http://arxiv.org/abs/2403.17845v1
- Date: Tue, 26 Mar 2024 16:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:37:40.632120
- Title: TractOracle: towards an anatomically-informed reward function for RL-based tractography
- Title(参考訳): TractOracle : RL-based tractographyにおける解剖学的インフォームド報酬関数に向けて
- Authors: Antoine Théberge, Maxime Descoteaux, Pierre-Marc Jodoin,
- Abstract要約: 強化学習(RL)に基づくトラクトグラフィーは、機械学習や古典的なトラクトグラフィーアルゴリズムと競合する代替手段である。
本稿では,ストリームライン分類に訓練された報酬ネットワークに依存する新たなRLトラクトグラフィーシステムであるTractOracleを提案する。
- 参考スコア(独自算出の注目度): 3.5484394028357373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL)-based tractography is a competitive alternative to machine learning and classical tractography algorithms due to its high anatomical accuracy obtained without the need for any annotated data. However, the reward functions so far used to train RL agents do not encapsulate anatomical knowledge which causes agents to generate spurious false positives tracts. In this paper, we propose a new RL tractography system, TractOracle, which relies on a reward network trained for streamline classification. This network is used both as a reward function during training as well as a mean for stopping the tracking process early and thus reduce the number of false positive streamlines. This makes our system a unique method that evaluates and reconstructs WM streamlines at the same time. We report an improvement of true positive ratios by almost 20\% and a reduction of 3x of false positive ratios on one dataset and an increase between 2x and 7x in the number true positive streamlines on another dataset.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)に基づくトラクトグラフィーは、注釈付きデータを必要としない解剖学的精度が高いため、機械学習や古典的なトラクトグラフィーアルゴリズムの代替となる。
しかし、これまでRLエージェントの訓練に用いられてきた報酬関数は、エージェントが刺激的な偽陽性を発生させる原因となる解剖学的知識をカプセル化していない。
本稿では,ストリームライン分類のために訓練された報酬ネットワークに依存した新しいRLトラクトグラフィーシステムであるTractOracleを提案する。
このネットワークは、トレーニング中の報酬関数だけでなく、追跡プロセスを早期に停止し、偽陽性のストリームライン数を減少させる手段としても使用される。
これにより,WMの合理性の評価と再構築を同時に行う一意の手法となる。
一方のデータセットでは,正の正の比率が約20\%向上し,偽の正の比率が3倍減少し,他方のデータセットでは正の正の正の正の比率が2倍から7倍向上した。
関連論文リスト
- Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。
LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。
実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文 参考訳(メタデータ) (2024-08-08T03:18:42Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Scalable Real-Time Recurrent Learning Using Columnar-Constructive
Networks [19.248060562241296]
リアルタイム反復学習をスケーラブルにする2つの制約を提案する。
ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。
本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-01-20T23:17:48Z) - Teacher Forcing Recovers Reward Functions for Text Generation [21.186397113834506]
本稿では,教師の強制力で訓練されたモデルから直接,ステップワイズ報酬関数を導出するタスク依存型手法を提案する。
また、並列でないデータセットに対するRLトレーニングを誘導報酬関数で安定化するための簡単な修正も提案する。
論文 参考訳(メタデータ) (2022-10-17T02:48:58Z) - LHNN: Lattice Hypergraph Neural Network for VLSI Congestion Prediction [70.31656245793302]
格子ハイパーグラフ(格子ハイパーグラフ)は、回路のための新しいグラフ定式化である。
LHNNは、F1スコアのU-netやPix2Pixと比べて、35%以上の改善を常に達成している。
論文 参考訳(メタデータ) (2022-03-24T03:31:18Z) - Transferred Q-learning [79.79659145328856]
我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングについて検討する。
オフラインのソーススタディを用いたバッチとオンラインの$Q$ラーニングのためのトランスファー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-09T20:08:19Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。