論文の概要: On the Relevance of Temporal Features for Medical Ultrasound Video
Recognition
- arxiv url: http://arxiv.org/abs/2310.10453v1
- Date: Mon, 16 Oct 2023 14:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:45:36.685261
- Title: On the Relevance of Temporal Features for Medical Ultrasound Video
Recognition
- Title(参考訳): 医用超音波映像認識における時間的特徴の関連性について
- Authors: D. Hudson Smith, John Paul Lineberger, George H. Baker
- Abstract要約: 一般的な超音波タスクにおいて,より優れたサンプリング効率を実現するために,新しいマルチヘッドアテンションアーキテクチャを提案する。
アーキテクチャの性能を2つの設定で効率的な3次元CNNビデオ認識モデルと比較する。
以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルの方が最先端の映像認識モデルよりも有効である可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many medical ultrasound video recognition tasks involve identifying key
anatomical features regardless of when they appear in the video suggesting that
modeling such tasks may not benefit from temporal features. Correspondingly,
model architectures that exclude temporal features may have better sample
efficiency. We propose a novel multi-head attention architecture that
incorporates these hypotheses as inductive priors to achieve better sample
efficiency on common ultrasound tasks. We compare the performance of our
architecture to an efficient 3D CNN video recognition model in two settings:
one where we expect not to require temporal features and one where we do. In
the former setting, our model outperforms the 3D CNN - especially when we
artificially limit the training data. In the latter, the outcome reverses.
These results suggest that expressive time-independent models may be more
effective than state-of-the-art video recognition models for some common
ultrasound tasks in the low-data regime.
- Abstract(参考訳): 多くの医療用超音波ビデオ認識タスクは、ビデオに現れる時間に関係なく、重要な解剖学的特徴を特定することを含む。
それに応じて、時間的特徴を除外したモデルアーキテクチャは、よりよいサンプル効率をもたらす可能性がある。
本稿では,これらの仮説をインダクティブ・プリエントとして組み込んだ,新しいマルチヘッド・アテンション・アーキテクチャを提案する。
当社のアーキテクチャのパフォーマンスを,2つの設定で効率的な3d cnnビデオ認識モデルと比較した。
前者の環境では、トレーニングデータを人工的に制限する場合、我々のモデルは3D CNNよりも優れています。
後者では結果が逆になる。
以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルは最先端の映像認識モデルよりも有効である可能性が示唆された。
関連論文リスト
- Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Activity Detection in Long Surgical Videos using Spatio-Temporal Models [1.2400116527089995]
本稿では,最先端のアクティビティ認識と時間モデルの両方について検討する。
手術室の大規模活動認識データセットに,800本以上のフル長の手術ビデオを用いて,これらのモデルをベンチマークした。
ラベル付きデータに制限がある場合であっても、他のタスクで事前トレーニングされたモデルから恩恵を受ければ、既存の作業よりも優れることを示す。
論文 参考訳(メタデータ) (2022-05-05T17:34:33Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - BRAIN2DEPTH: Lightweight CNN Model for Classification of Cognitive
States from EEG Recordings [0.0]
本稿では,脳波記録から認知状態を分類するための簡易軽量CNNモデルを提案する。
そこで我々は,2段階からなる認知表現を学習するための新しいパイプラインを開発した。
他のモデルのパラメータの4%未満を活用して、同等のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2021-06-12T05:06:20Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - On the Post-hoc Explainability of Deep Echo State Networks for Time
Series Forecasting, Image and Video Classification [63.716247731036745]
エコー状態ネットワークは、主に学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。
本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。
本研究では,これらの反復モデルが把握した知識に関する理解可能な情報を抽出する3つの手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T08:56:33Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。