論文の概要: HRVVS: A High-resolution Video Vasculature Segmentation Network via Hierarchical Autoregressive Residual Priors
- arxiv url: http://arxiv.org/abs/2507.22530v1
- Date: Wed, 30 Jul 2025 09:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.130049
- Title: HRVVS: A High-resolution Video Vasculature Segmentation Network via Hierarchical Autoregressive Residual Priors
- Title(参考訳): HRVVS:階層的自己回帰型残差前処理による高分解能ビデオ真空セグメンテーションネットワーク
- Authors: Xincheng Yao, Yijun Yang, Kangwei Guo, Ruiqiang Xiao, Haipeng Zhou, Haisu Tao, Jian Yang, Lei Zhu,
- Abstract要約: 手術ビデオにおける肝血管の分節化は臨床的に重要な意味を持つ。
本稿では,HRVVSと呼ばれる新しい高分解能ビデオ血管セグメンテーションネットワークを提案する。
提案するHRVVSは最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 18.951871257229055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The segmentation of the hepatic vasculature in surgical videos holds substantial clinical significance in the context of hepatectomy procedures. However, owing to the dearth of an appropriate dataset and the inherently complex task characteristics, few researches have been reported in this domain. To address this issue, we first introduce a high quality frame-by-frame annotated hepatic vasculature dataset containing 35 long hepatectomy videos and 11442 high-resolution frames. On this basis, we propose a novel high-resolution video vasculature segmentation network, dubbed as HRVVS. We innovatively embed a pretrained visual autoregressive modeling (VAR) model into different layers of the hierarchical encoder as prior information to reduce the information degradation generated during the downsampling process. In addition, we designed a dynamic memory decoder on a multi-view segmentation network to minimize the transmission of redundant information while preserving more details between frames. Extensive experiments on surgical video datasets demonstrate that our proposed HRVVS significantly outperforms the state-of-the-art methods. The source code and dataset will be publicly available at \href{https://github.com/scott-yjyang/xx}{https://github.com/scott-yjyang/HRVVS}.
- Abstract(参考訳): 手術ビデオにおける肝血管の分画は肝切除術の文脈において重要な臨床的意義を有する。
しかし、適切なデータセットの変形と本質的に複雑なタスク特性のため、この領域ではほとんど研究が報告されていない。
この問題に対処するために,35本の肝切除ビデオと11442本の高解像度フレームを含む高品質なフレーム・バイ・フレームアノテート肝血管データセットを最初に導入した。
そこで本研究では,HRVVSと呼ばれる高解像度ビデオ血管セグメンテーションネットワークを提案する。
我々は、事前学習された視覚自己回帰モデリング(VAR)モデルを階層エンコーダの異なる層に事前情報として組み込んで、ダウンサンプリングプロセス中に発生する情報劣化を低減する。
さらに,多視点分割ネットワーク上に動的メモリデコーダを設計し,フレーム間の詳細を保存しながら冗長情報の伝送を最小化する。
外科的ビデオデータセットに対する大規模な実験により,提案したHRVVSは最先端の手法よりも優れていた。
ソースコードとデータセットは \href{https://github.com/scott-yjyang/xx}{https://github.com/scott-yjyang/HRVVS} で公開されている。
関連論文リスト
- Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - DeNVeR: Deformable Neural Vessel Representations for Unsupervised Video Vessel Segmentation [3.1977656204331684]
Deformable Neural Vessel Representations (DeNVeR)は、X線アンギオグラフィービデオにおける血管のセグメンテーションの教師なしアプローチである。
主な貢献は、新しい層ブートストラップ技術、平行血管運動損失、複雑な血管力学をモデル化するためのユーレリア運動場の統合である。
論文 参考訳(メタデータ) (2024-06-03T17:59:34Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - GAN-Based Multi-View Video Coding with Spatio-Temporal EPI
Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。
エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。
側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文 参考訳(メタデータ) (2022-05-07T08:52:54Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。