論文の概要: Detector-in-the-Loop Tracking: Active Memory Rectification for Stable Glottic Opening Localization
- arxiv url: http://arxiv.org/abs/2602.19380v1
- Date: Sun, 22 Feb 2026 23:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.614848
- Title: Detector-in-the-Loop Tracking: Active Memory Rectification for Stable Glottic Opening Localization
- Title(参考訳): Detector-in-the-Loop Tracking: 安定な声門開放位置検出のためのアクティブメモリ整形
- Authors: Huayu Wang, Bahaa Alattar, Cheng-Yen Yang, Hsiang-Wei Huang, Jung Heon Kim, Linda Shapiro, Nathan White, Jenq-Neng Hwang,
- Abstract要約: 本稿では,信頼性に整合した状態決定とアクティブメモリの整合性により,Segment Anything Model 2(SAM2)を監督する検出・イン・ザ・ループフレームワークを提案する。
緊急挿管ビデオでは、CL-MCは最先端のパフォーマンスを達成し、ドリフトと欠落率を大幅に低減する。
- 参考スコア(独自算出の注目度): 25.593059138669844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal stability in glottic opening localization remains challenging due to the complementary weaknesses of single-frame detectors and foundation-model trackers: the former lacks temporal context, while the latter suffers from memory drift. Specifically, in video laryngoscopy, rapid tissue deformation, occlusions, and visual ambiguities in emergency settings require a robust, temporally aware solution that can prevent progressive tracking errors. We propose Closed-Loop Memory Correction (CL-MC), a detector-in-the-loop framework that supervises Segment Anything Model 2(SAM2) through confidence-aligned state decisions and active memory rectification. High-confidence detections trigger semantic resets that overwrite corrupted tracker memory, effectively mitigating drift accumulation with a training-free foundation tracker in complex endoscopic scenes. On emergency intubation videos, CL-MC achieves state-of-the-art performance, significantly reducing drift and missing rate compared with the SAM2 variants and open loop based methods. Our results establish memory correction as a crucial component for reliable clinical video tracking. Our code will be available in https://github.com/huayuww/CL-MR.
- Abstract(参考訳): 単一のフレーム検出器とファンデーションモデルトラッカーの相補的な弱点により、スロットティックな開口部の局所化における時間的安定性は依然として困難であり、前者は時間的文脈を欠いているが、後者はメモリドリフトに悩まされている。
具体的には、ビデオ喉頭鏡では、急速な組織変形、閉塞、および緊急時の視覚的曖昧さは、進行的な追跡エラーを防止できる堅牢で時間的に認識された解決策を必要とする。
本報告では,Segment Anything Model 2(SAM2) を監督する検出用ループ・イン・ループ・フレームワークであるClosed-Loop Memory Correction (CL-MC) を提案する。
高信頼度検出は、破損したトラッカーメモリを上書きするセマンティックリセットをトリガーし、複雑な内視鏡シーンにおけるトレーニング不要なファンデーショントラッカーによるドリフト蓄積を効果的に緩和する。
緊急挿管ビデオでは、CL-MCは最先端の性能を達成し、SAM2変種や開ループ法と比較してドリフトと欠落率を著しく低減する。
本研究は, 信頼性の高い臨床ビデオ追跡のための重要な要素として, 記憶補正が確立されている。
私たちのコードはhttps://github.com/huayuww/CL-MRで利用可能です。
関連論文リスト
- TS-Memory: Plug-and-Play Memory for Time Series Foundation Models [63.21390142212087]
Time Series Foundation Models (TSFM) は大規模な事前訓練を通じて強力なゼロショット予測を実現する。
パラメトリック適応は破滅的な忘れを招き、非パラメトリック検索は予測を改善するが、データストア検索によってレイテンシが高くなる。
本稿では, TSFM を拡張した軽量メモリアダプタ TS-Memory としてParametric Memory Distillation を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-12T04:16:19Z) - CroBIM-V: Memory-Quality Controlled Remote Sensing Referring Video Object Segmentation [0.3099118620919279]
本稿では、データと方法論の二重貢献を通してRS-RVOSの研究を進める。
まず,111の動画シーケンス,約25,000のフレーム,213,000の時間参照アノテーションからなる最初の大規模ベンチマークであるRS-RVOS Benchを構築した。
第2に、セグメンテーションモデル(MQC-SAM)を用いたメモリ品質制御と呼ばれる、メモリ品質を考慮したオンライン参照セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-17T14:52:46Z) - FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse [4.210760734549566]
FlashMemは、計算再利用を通じて、過渡的推論状態から直接固有のメモリを蒸留するフレームワークである。
実験によると、FlashMemは5倍の推論遅延を減らしながら、重いベースラインのパフォーマンスと一致している。
論文 参考訳(メタデータ) (2026-01-09T03:27:43Z) - SAMITE: Position Prompted SAM2 with Calibrated Memory for Visual Object Tracking [58.35852822355312]
Visual Object Tracking (VOT)は、ビデオ内のターゲットを継続的に追跡する自律運転のようなアプリケーションで広く使われている。
これらの問題に対処するために、ビデオ基盤モデルSAM2をVOTに適用し、各フレームの追跡結果をメモリとして符号化し、残りのフレームを自己回帰的に条件付けする手法を提案する。
これらの課題に対処するために,SAM2 上にモジュールを追加して構築した SAMITE モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T12:11:56Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Flashback: Memory-Driven Zero-shot, Real-time Video Anomaly Detection [11.197888893266535]
Flashbackはゼロショットおよびリアルタイムビデオ異常検出パラダイムである。
異常を即座に判断する人間の認知メカニズムにインスパイアされたFlashbackは、RecallとRespondの2つの段階で動作する。
推論時にすべてのLSMコールを削除することで、FlashbackはコンシューマグレードのGPU上でもリアルタイムのVADを提供する。
論文 参考訳(メタデータ) (2025-05-21T07:32:29Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Adversarially Diversified Rehearsal Memory (ADRM): Mitigating Memory Overfitting Challenge in Continual Learning [0.0]
継続的な学習は、それまでの知識を忘れずに、静止しないデータ分布を学習することに焦点を当てる。
リハーサルベースのアプローチは、破滅的な忘れに対処するために一般的に使用される。
本稿では、メモリ過度に適合する課題に対処するために、Adversarially Diversified Rehearsal Memoryを導入する。
論文 参考訳(メタデータ) (2024-05-20T06:56:43Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。