論文の概要: Inference-Time Temporal Probability Smoothing for Stable Video Segmentation with SAM2 under Weak Prompts
- arxiv url: http://arxiv.org/abs/2604.17115v1
- Date: Sat, 18 Apr 2026 19:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.341997
- Title: Inference-Time Temporal Probability Smoothing for Stable Video Segmentation with SAM2 under Weak Prompts
- Title(参考訳): SAM2による安定な映像分割のための推定時間時間時間確率平滑化
- Authors: Dawar Jyoti Deka,
- Abstract要約: 提案するフレームワークは軽量で、モデルに依存しず、リアルタイムでインタラクティブなビデオセグメンテーションに適している。
提案手法は,フレームワイドおよび時間安定性指標の総合的セットを用いて,4つの多様な映像系列に対して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive video segmentation models such as SAM2 have demonstrated strong generalization across diverse visual domains. However, under weak user supervision, for example, when sparse point prompts are provided on a single frame, their predictions often suffer from temporal instability, including flickering boundaries, object dropout, and inconsistent object extents across frames. These issues limit their reliability in downstream video understanding and control applications. In this paper, we propose an inference-time temporal probability smoothing method that improves the temporal stability of SAM2-based video segmentation without retraining or architectural modification. Our approach operates directly on per-frame segmentation probability maps and leverages optical-flow-based motion warping together with pixel-wise uncertainty estimates derived from segmentation entropy, and forward-backwards flow consistency. These signals are used to adaptively blend current-frame predictions with motion-aligned historical estimates, yielding temporally coherent segmentation outputs under weak prompts. We evaluate the proposed method on four diverse video sequences using a comprehensive set of frame-wise and temporal stability metrics, including motion-compensated IoU, boundary consistency, object persistence, and area volatility. Experimental results demonstrate consistent improvements in temporal stability over vanilla SAM2 inference while preserving spatial accuracy. The proposed framework is lightweight, model-agnostic, and well-suited for real-time, interactive video segmentation.
- Abstract(参考訳): SAM2のようなインタラクティブなビデオセグメンテーションモデルは、多様な視覚領域にまたがる強力な一般化を実証している。
しかし、例えば1つのフレームにスパースポイントプロンプトが提供される場合、ユーザによる弱い監督の下では、それらの予測は、フレッカリング境界、オブジェクトのドロップアウト、フレーム全体の不整合オブジェクトの範囲など、時間的不安定さに悩まされることが多い。
これらの問題は、下流のビデオ理解および制御アプリケーションにおける信頼性を制限する。
本稿では,SAM2に基づくビデオセグメンテーションの時間的安定性を,再トレーニングやアーキテクチャ変更を伴わずに向上させる推論時時間確率平滑化手法を提案する。
提案手法は,フレームごとのセグメンテーション確率マップを直接操作し,セグメンテーションエントロピーと前方逆流の整合性から導かれる画素単位の不確実性推定とともに光フローベースの運動ワーピングを利用する。
これらの信号は、現在のフレーム予測と動きに沿った履歴推定とを適応的にブレンドするために使用され、弱いプロンプトの下で時間的にコヒーレントなセグメンテーション出力が得られる。
提案手法は,動補償IoU,境界整合性,オブジェクトの永続性,領域のボラティリティといった,フレームワイズおよび時間的安定性の総合的な指標を用いて,4種類のビデオシーケンスに対して評価する。
実験の結果,空間的精度を保ちながら,バニラSAM2推論に対する時間的安定性が一貫した改善を示した。
提案するフレームワークは軽量で、モデルに依存しず、リアルタイムでインタラクティブなビデオセグメンテーションに適している。
関連論文リスト
- SHARP: Short-Window Streaming for Accurate and Robust Prediction in Motion Forecasting [53.74101174559609]
本稿では,進化するシーンに特化して焦点をあてた,ストリーミングベースの新たな動き予測フレームワークを提案する。
本手法は,入ってくる観測ウィンドウを段階的に処理し,インスタンス対応コンテキストストリーミングを利用して潜時エージェント表現の維持と更新を行う。
我々のモデルは,Argoverse 2マルチエージェントベンチマークのストリーミング推論における最先端性能を実現し,遅延を最小限に抑えながら,実世界の展開に適していることを強調した。
論文 参考訳(メタデータ) (2026-03-30T06:47:19Z) - Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation [9.929390581043334]
ドメイン一般化ビデオセマンティック(DGVSS)は、単一のラベル付き駆動ドメインでトレーニングされる。
Time2Generalは、以前のDGVSSとVSSベースラインよりも、クロスドメインの精度と時間的安定性を大幅に改善する。
論文 参考訳(メタデータ) (2026-02-10T10:55:25Z) - DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining [21.816338275013702]
ネットワークの注意点に直接リー群差分バイアスを注入する,効率的なビデオデラミニング手法であるDeLiVRを提案する。
回転有界リー相対バイアスは、コンパクトな予測モジュールを用いて各フレームの面内角度を予測する。
微分群変位は、速度を推定するために隣接するフレーム間の角度差を計算する。
このバイアスは、時間的減衰とアテンションマスクを組み合わせて、雨の流れの方向を正確に一致させながら、フレーム間の関係に焦点を当てる。
論文 参考訳(メタデータ) (2025-09-26T00:29:36Z) - DUAL-VAD: Dual Benchmarks and Anomaly-Focused Sampling for Video Anomaly Detection [8.294763803639391]
ビデオ異常検出(VAD)は、監視と公衆の安全のために重要である。
既存のベンチマークはフレームレベルかビデオレベルのタスクに限られている。
本研究は、フルビデオカバレッジを維持しながら、異常度セグメントを優先するソフトマックスベースのフレーム割り当て戦略を導入する。
論文 参考訳(メタデータ) (2025-09-15T05:48:22Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。