論文の概要: VidFuncta: Towards Generalizable Neural Representations for Ultrasound Videos
- arxiv url: http://arxiv.org/abs/2507.21863v1
- Date: Tue, 29 Jul 2025 14:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.469214
- Title: VidFuncta: Towards Generalizable Neural Representations for Ultrasound Videos
- Title(参考訳): VidFuncta: 超音波ビデオのための一般化可能なニューラル表現を目指して
- Authors: Julia Wolleb, Florentin Bieder, Paul Friedrich, Hemant D. Tagare, Xenophon Papademetris,
- Abstract要約: 暗黙的ニューラル表現(INR)による超音波ビデオ解析の新しい視点を提供する。
我々はFunctaというINRフレームワークを構築し、各イメージを共有ニューラルネットワークを条件とした変調ベクトルで表現する。
本稿では,Functaを利用して可変長の超音波ビデオをコンパクトな時間分解表現に符号化する新しいフレームワークであるVidFunctaを提案する。
- 参考スコア(独自算出の注目度): 3.5951107525164576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultrasound is widely used in clinical care, yet standard deep learning methods often struggle with full video analysis due to non-standardized acquisition and operator bias. We offer a new perspective on ultrasound video analysis through implicit neural representations (INRs). We build on Functa, an INR framework in which each image is represented by a modulation vector that conditions a shared neural network. However, its extension to the temporal domain of medical videos remains unexplored. To address this gap, we propose VidFuncta, a novel framework that leverages Functa to encode variable-length ultrasound videos into compact, time-resolved representations. VidFuncta disentangles each video into a static video-specific vector and a sequence of time-dependent modulation vectors, capturing both temporal dynamics and dataset-level redundancies. Our method outperforms 2D and 3D baselines on video reconstruction and enables downstream tasks to directly operate on the learned 1D modulation vectors. We validate VidFuncta on three public ultrasound video datasets -- cardiac, lung, and breast -- and evaluate its downstream performance on ejection fraction prediction, B-line detection, and breast lesion classification. These results highlight the potential of VidFuncta as a generalizable and efficient representation framework for ultrasound videos. Our code is publicly available under https://github.com/JuliaWolleb/VidFuncta_public.
- Abstract(参考訳): 超音波は臨床医療で広く用いられているが、標準的なディープラーニング手法は、非標準化された取得とオペレーターバイアスのために、フルビデオ分析に苦しむことが多い。
暗黙的ニューラル表現(INR)による超音波ビデオ解析の新しい視点を提供する。
我々はFunctaというINRフレームワークを構築し、各イメージを共有ニューラルネットワークを条件とした変調ベクトルで表現する。
しかし、医用ビデオの時間領域への拡張は未解明のままである。
このギャップに対処するために,Functaを利用して可変長超音波ビデオをコンパクトかつ時間分解された表現に符号化する新しいフレームワークであるVidFunctaを提案する。
VidFunctaは、各ビデオを静的ビデオ固有ベクトルと時間依存変調ベクトルのシーケンスに切り離し、時間的ダイナミクスとデータセットレベルの冗長性の両方をキャプチャする。
提案手法は,映像再構成における2次元と3次元のベースラインを上回り,下流タスクが学習した1次元変調ベクトルを直接操作できるようにする。
VidFunctaは, 心, 肺, 乳房の3つの超音波ビデオデータセットを用いて評価し, 吐出率予測, B線検出, 乳房病変分類による下流部の性能評価を行った。
これらの結果は、VidFunctaが超音波ビデオの汎用的で効率的な表現フレームワークとしての可能性を強調している。
私たちのコードはhttps://github.com/JuliaWolleb/VidFuncta_publicで公開されています。
関連論文リスト
- Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A New Dataset and A Baseline Model for Breast Lesion Detection in
Ultrasound Videos [43.42513012531214]
乳房病変検出のための超音波ビデオデータセット(188ビデオ)をまず収集し,注釈する。
超音波映像における胸部病変検出のためのクリップレベル・ビデオレベルのアグリゲートネットワーク(CVA-Net)を提案する。
論文 参考訳(メタデータ) (2022-07-01T01:37:50Z) - Unsupervised multi-latent space reinforcement learning framework for
video summarization in ultrasound imaging [0.0]
新型コロナウイルス(COVID-19)のパンデミックは、超音波スキャンのトリアージを高速化するツールの必要性を強調している。
提案手法は,この方向への一歩である。
そこで我々は,新しい報酬を伴う教師なし強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T04:50:35Z) - Video Summarization through Reinforcement Learning with a 3D
Spatio-Temporal U-Net [15.032516344808526]
本稿では,映像要約のための3DST-UNet-RLフレームワークを提案する。
2つの一般的なビデオ要約ベンチマークにおける3DST-UNet-RLの有効性を示す。
提案した映像要約は, 超音波検診ビデオの保存コストを削減できるとともに, 患者の映像データを振り返り解析で閲覧する際の効率を向上させる可能性がある。
論文 参考訳(メタデータ) (2021-06-19T16:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。