論文の概要: Role of the Pretraining and the Adaptation data sizes for low-resource real-time MRI video segmentation
- arxiv url: http://arxiv.org/abs/2502.14418v1
- Date: Thu, 20 Feb 2025 10:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:43.612782
- Title: Role of the Pretraining and the Adaptation data sizes for low-resource real-time MRI video segmentation
- Title(参考訳): 低リソースリアルタイムMRI画像分割における事前学習と適応データサイズの役割
- Authors: Masoud Thajudeen Tholan, Vinayaka Hegde, Chetan Sharma, Prasanta Kumar Ghosh,
- Abstract要約: 実時間MRI(Real-time Magnetic Resonance Imaging)は、発声時の声道の完全な視認を提供するため、音声合成研究において頻繁に用いられる。
本研究では,ATB分割作業におけるSegNetとUNetモデルを用いた声道運動解析におけるrtMRIの有効性について検討した。
- 参考スコア(独自算出の注目度): 26.69134548708678
- License:
- Abstract: Real-time Magnetic Resonance Imaging (rtMRI) is frequently used in speech production studies as it provides a complete view of the vocal tract during articulation. This study investigates the effectiveness of rtMRI in analyzing vocal tract movements by employing the SegNet and UNet models for Air-Tissue Boundary (ATB)segmentation tasks. We conducted pretraining of a few base models using increasing numbers of subjects and videos, to assess performance on two datasets. First, consisting of unseen subjects with unseen videos from the same data source, achieving 0.33% and 0.91% (Pixel-wise Classification Accuracy (PCA) and Dice Coefficient respectively) better than its matched condition. Second, comprising unseen videos from a new data source, where we obtained an accuracy of 99.63% and 98.09% (PCA and Dice Coefficient respectively) of its matched condition performance. Here, matched condition performance refers to the performance of a model trained only on the test subjects which was set as a benchmark for the other models. Our findings highlight the significance of fine-tuning and adapting models with limited data. Notably, we demonstrated that effective model adaptation can be achieved with as few as 15 rtMRI frames from any new dataset.
- Abstract(参考訳): 実時間MRI(Real-time Magnetic Resonance Imaging)は、発声時の声道の完全な視認を提供するため、音声合成研究において頻繁に用いられる。
本研究では,ATB分割作業におけるSegNetとUNetモデルを用いた声道運動解析におけるrtMRIの有効性について検討した。
2つのデータセットの性能を評価するために,被験者数と動画数の増加によるいくつかのベースモデルの事前学習を行った。
第一に、同じデータソースからビデオが見えない未確認の被験者で構成され、一致した条件よりも0.33%と0.91%(画像ワイド分類精度(PCA)とDice Coefficient)を達成している。
第2に、新しいデータソースから目に見えないビデオを合成し、一致した条件性能の99.63%と98.09%(それぞれPCAとDice Coefficient)の精度を得た。
ここでは、マッチング条件性能は、他のモデルのベンチマークとして設定されたテスト対象のみに基づいてトレーニングされたモデルのパフォーマンスを指す。
この結果から,限られたデータを用いた微調整および適応モデルの重要さが浮き彫りになった。
特に、新しいデータセットから15 rtMRIフレームの有効モデル適応が可能であることを実証した。
関連論文リスト
- Self-Supervised Pre-training Tasks for an fMRI Time-series Transformer in Autism Detection [3.665816629105171]
自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、様々な症状や障害の程度を包含する神経発達障害である。
我々は,関数接続を計算せずに時系列fMRIデータを直接解析するトランスフォーマーベースの自己教師型フレームワークを開発した。
ランダムにROIをマスキングすると、トレーニング前のステップでランダムにマスキングする時間ポイントよりも、モデル性能が向上することを示す。
論文 参考訳(メタデータ) (2024-09-18T20:29:23Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - T-ADAF: Adaptive Data Augmentation Framework for Image Classification
Network based on Tensor T-product Operator [0.0]
本稿ではテンソルT-Product Operatorに基づくAdaptive Data Augmentation Frameworkを提案する。
1つの画像データを3倍にし、これら3つの画像から結果を得る。
数値実験により、我々のデータ拡張フレームワークは、元のニューラルネットワークモデルの性能を2%向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-07T08:30:44Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Diminishing Uncertainty within the Training Pool: Active Learning for
Medical Image Segmentation [6.3858225352615285]
医用画像データセットのセグメンテーション作業におけるアクティブラーニングについて検討する。
トレーニングデータセットをバイアスする不確実データの頻度の増大、入力画像間の相互情報を正規化として利用すること、およびスタイン変動勾配降下(SVGD)のためのダイスログの類似性(Dice log-likelihood)の適応という3つの新しいアクティブ学習戦略を提案する。
その結果、データセット毎に利用可能なデータの22.69 %と48.85 %をそれぞれ使用しながら、完全な精度を達成することで、データ削減の観点での改善が示された。
論文 参考訳(メタデータ) (2021-01-07T01:55:48Z) - Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文 参考訳(メタデータ) (2020-10-22T14:01:32Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。