論文の概要: Few-Shot Video Object Segmentation in X-Ray Angiography Using Local Matching and Spatio-Temporal Consistency Loss
- arxiv url: http://arxiv.org/abs/2601.00988v1
- Date: Fri, 02 Jan 2026 21:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.924047
- Title: Few-Shot Video Object Segmentation in X-Ray Angiography Using Local Matching and Spatio-Temporal Consistency Loss
- Title(参考訳): 局所マッチングと時空間一貫性損失を用いたX線アンギオグラフィーにおけるFew-Shot Video Object Segmentation
- Authors: Lin Xi, Yingliang Ma, Xiahai Zhuang,
- Abstract要約: 探索空間を最も近いピクセルに制限する局所マッチング戦略を用いた新しいFSVOSモデルを提案する。
具体的には、動的に異なるサンプリング領域を実現できる非パラメトリックサンプリング機構を実装した。
この研究は、幅広い臨床応用のための強化されたポテンシャルを提供する。
- 参考スコア(独自算出の注目度): 13.850743997507488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel FSVOS model that employs a local matching strategy to restrict the search space to the most relevant neighboring pixels. Rather than relying on inefficient standard im2col-like implementations (e.g., spatial convolutions, depthwise convolutions and feature-shifting mechanisms) or hardware-specific CUDA kernels (e.g., deformable and neighborhood attention), which often suffer from limited portability across non-CUDA devices, we reorganize the local sampling process through a direction-based sampling perspective. Specifically, we implement a non-parametric sampling mechanism that enables dynamically varying sampling regions. This approach provides the flexibility to adapt to diverse spatial structures without the computational costs of parametric layers and the need for model retraining. To further enhance feature coherence across frames, we design a supervised spatio-temporal contrastive learning scheme that enforces consistency in feature representations. In addition, we introduce a publicly available benchmark dataset for multi-object segmentation in X-ray angiography videos (MOSXAV), featuring detailed, manually labeled segmentation ground truth. Extensive experiments on the CADICA, XACV, and MOSXAV datasets show that our proposed FSVOS method outperforms current state-of-the-art video segmentation methods in terms of segmentation accuracy and generalization capability (i.e., seen and unseen categories). This work offers enhanced flexibility and potential for a wide range of clinical applications.
- Abstract(参考訳): 探索空間を最も関連性の高い隣接画素に制限する局所マッチング戦略を用いた新しいFSVOSモデルを提案する。
非効率な標準im2colライクな実装(例えば、空間的畳み込み、奥行きの畳み込み、特徴シフト機構)やハードウェア固有のCUDAカーネル(例えば、変形可能、近傍の注意)に頼らず、非CUDAデバイス間のポータビリティが制限されることが多いため、方向に基づくサンプリングの観点から局所サンプリングプロセスを再編成する。
具体的には、動的に異なるサンプリング領域を実現できる非パラメトリックサンプリング機構を実装した。
このアプローチは、パラメトリック層の計算コストやモデル再トレーニングの必要性を伴わずに、多様な空間構造に適応する柔軟性を提供する。
フレーム間の特徴コヒーレンスをさらに強化するために,特徴表現の一貫性を強制する教師付き時空間コントラスト学習スキームを設計する。
また,X線アンギオグラフィービデオ(MOSXAV)におけるマルチオブジェクトセグメンテーションのためのベンチマークデータセットを公開し,詳細かつ手作業によるセグメンテーショングラウンドの真理を特徴とする。
CADICA,XACV,MOSXAVデータセットの大規模な実験により,提案したFSVOS法は,セグメンテーション精度と一般化能力(見当たらないカテゴリ)の観点から,現在最先端のビデオセグメンテーション法よりも優れた性能を示した。
この研究は、幅広い臨床応用に柔軟性と可能性を提供する。
関連論文リスト
- Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。
本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。
我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文 参考訳(メタデータ) (2025-09-24T13:32:07Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。