論文の概要: Turbulence-Robust Dynamic Object Segmentation with Multi-Signal Priors and SAM2 Refinement
- arxiv url: http://arxiv.org/abs/2605.29292v1
- Date: Thu, 28 May 2026 03:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.628557
- Title: Turbulence-Robust Dynamic Object Segmentation with Multi-Signal Priors and SAM2 Refinement
- Title(参考訳): 多信号プリミティブとSAM2リファインメントによる乱流-ローバスト動的物体分割
- Authors: Bolian Peng, Ying Tang, Xu Liu, Long Sun, Xiaoqiang Lu,
- Abstract要約: 本稿では, CVPR 2026 UG2+ Challenge Track 3: Dynamic Object in Turbulence (DOST) について述べる。
我々は,事前訓練された動作推定,自己教師付きセマンティック先行,背景異常モデリング,手動キャリブレーションによる提案融合,SAM2ベースのマスク改善を組み合わせた,トレーニング不要な多信号分割パイプラインを設計する。
この設計はDOSTの設定に適しており、激しい大気乱流は擬似的な動き、ぼかし、間欠的な目標視認性を生じさせ、単一の動きキューを信頼できないようにする。
- 参考スコア(独自算出の注目度): 18.250105847259285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents our solution for the CVPR 2026 UG2+ Challenge Track 3: Dynamic Object Segmentation in Turbulence (DOST). We design a training-free multi-signal segmentation pipeline that combines pretrained motion estimation, self-supervised semantic priors, background anomaly modeling, manually calibrated proposal fusion, and SAM2-based mask refinement. The method uses RAFT for dense motion responses, DINOv2 for semantic objectness priors, ViBe for training-free background modeling, and pretrained SAM2 for box-prompt mask refinement. Instead of optimizing an end-to-end segmentation network, our system operates entirely in inference mode. This design is suitable for the DOST setting, where severe atmospheric turbulence produces pseudo-motion, blur, and intermittent target visibility, making a single motion cue unreliable. The final submitted masks are evaluated by the official leaderboard, which reports 0.425041 mIoU and 0.457206 mDice. Since no task-specific model training or fine-tuning is performed, stronger learned temporal association, adaptive proposal selection, or task-specific adaptation may further improve the system.
- Abstract(参考訳): 本稿では,CVPR 2026 UG2+ Challenge Track 3: Dynamic Object Segmentation in Turbulence (DOST)について述べる。
我々は,事前訓練された動作推定,自己教師付きセマンティック先行,背景異常モデリング,手動キャリブレーションによる提案融合,SAM2ベースのマスク改善を組み合わせた,トレーニング不要な多信号分割パイプラインを設計する。
RAFTを高密度な動作応答に、DINOv2をセマンティックなオブジェクト性に、ViBeをトレーニング不要なバックグラウンドモデリングに、SAM2をボックスプロンプトマスクの改良に使用する。
エンドツーエンドのセグメンテーションネットワークを最適化する代わりに,システムは完全に推論モードで動作する。
この設計はDOSTの設定に適しており、激しい大気乱流は擬似的な動き、ぼかし、間欠的な目標視認性を生じさせ、単一の動きキューを信頼できないようにする。
最終提出されたマスクは、公式のリーダーボードによって評価され、0.425041 mIoUと0.457206 mDiceが報告されている。
タスク固有のモデルトレーニングや微調整は行わないため、より強力な学習時間的関連、適応的提案選択、タスク固有の適応がシステムをさらに改善する可能性がある。
関連論文リスト
- Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking [81.34609950921023]
近年のビジョン基礎モデルはSAM 2で実証されている。
本稿では, SAM 2 を複雑な VOT シナリオに適用する新たなトラッキングフレームワーク SAMOSA を提案する。
論文 参考訳(メタデータ) (2026-05-21T14:25:28Z) - SAM2Grasp: Resolve Multi-modal Grasping via Prompt-conditioned Temporal Action Prediction [7.708279811172532]
ロボットの把握のための模倣学習は、しばしばマルチモーダル問題に悩まされる。
標準的な模倣学習ポリシーは、これらの異なるアクションを単一の無効なアクションに平均化することで失敗する。
SAM2Graspは,タスクを一様かつ迅速な予測問題として再構成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T10:15:00Z) - Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts [16.21786310193235]
制御可能LPMoEと呼ばれる、トレーニング可能なパラメータが少ない新しい動的事前学習パラダイムを提案する。
入力画像から多種多様な局所前駆体を異種畳み込みによりキャプチャする軽量な動的混合局所前駆体抽出器を構築した。
また、コサインアラインな変形性アテンションとチャネル指向適応スケールエンハンスメントを利用した双方向インタラクションアダプタを設計する。
論文 参考訳(メタデータ) (2025-10-24T03:03:59Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。