論文の概要: A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2206.09564v1
- Date: Mon, 20 Jun 2022 04:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:00:13.351276
- Title: A Novel Long-term Iterative Mining Scheme for Video Salient Object
Detection
- Title(参考訳): ビデオ・サイレント・オブジェクト検出のための新しい長期反復マイニング方式
- Authors: Chenglizhao Chen and Hengsen Wang and Yuming Fang and Chong Peng
- Abstract要約: 短期的方法論は視覚システムの実際のメカニズムと矛盾する。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法は、広く使用されている5つのベンチマークデータセットにおいて、ほぼ全てのSOTAモデルより優れている。
- 参考スコア(独自算出の注目度): 54.53335983750033
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The existing state-of-the-art (SOTA) video salient object detection (VSOD)
models have widely followed short-term methodology, which dynamically
determines the balance between spatial and temporal saliency fusion by solely
considering the current consecutive limited frames. However, the short-term
methodology has one critical limitation, which conflicts with the real
mechanism of our visual system -- a typical long-term methodology. As a result,
failure cases keep showing up in the results of the current SOTA models, and
the short-term methodology becomes the major technical bottleneck. To solve
this problem, this paper proposes a novel VSOD approach, which performs VSOD in
a complete long-term way. Our approach converts the sequential VSOD, a
sequential task, to a data mining problem, i.e., decomposing the input video
sequence to object proposals in advance and then mining salient object
proposals as much as possible in an easy-to-hard way. Since all object
proposals are simultaneously available, the proposed approach is a complete
long-term approach, which can alleviate some difficulties rooted in
conventional short-term approaches. In addition, we devised an online updating
scheme that can grasp the most representative and trustworthy pattern profile
of the salient objects, outputting framewise saliency maps with rich details
and smoothing both spatially and temporally. The proposed approach outperforms
almost all SOTA models on five widely used benchmark datasets.
- Abstract(参考訳): 現行のsota(state-of-the-art)ビデオサルエント物体検出(vsod)モデルは,現在連続する限定フレームのみを考慮し,空間的・時間的サルエンシー融合のバランスを動的に決定する短期的手法に広く従っている。
しかし、短期的方法論には1つの限界があり、それは視覚システムの実際のメカニズム、典型的な長期的方法論と矛盾する。
その結果、障害ケースは現在のSOTAモデルの結果に現れ続け、短期的な方法論が主要な技術的ボトルネックとなっている。
そこで本研究では,VSOD を長期にわたって実施する新しい VSOD アプローチを提案する。
提案手法では,逐次的タスクである逐次VSODをデータマイニング問題,すなわち予め入力されたビデオシーケンスをオブジェクト提案に分解し,より容易かつハードな方法で有能なオブジェクト提案をマイニングする。
全てのオブジェクト提案が同時に利用可能であるため、提案手法は完全な長期的アプローチであり、従来の短期的アプローチに根ざした困難を緩和することができる。
さらに,サルエントオブジェクトの最も代表的かつ信頼性の高いパターンプロファイルを把握し,詳細なフレーム毎のサルエンシーマップを出力し,空間的および時間的に平滑化できるオンライン更新方式を考案した。
提案手法は、広く使用されている5つのベンチマークデータセットのほとんどすべてのsomaモデルを上回る。
関連論文リスト
- OED: Towards One-stage End-to-End Dynamic Scene Graph Generation [18.374354844446962]
ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
論文 参考訳(メタデータ) (2024-05-27T08:18:41Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Reasonable Anomaly Detection in Long Sequences [3.673497128866642]
本稿では,オブジェクトの動作パターンを長期的シーケンスから学習することで,完全に表現することを提案する。
長期観測において一貫した時間依存性を表現するために,スタック状態マシン(SSM)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-06T23:35:55Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Deep-Ensemble-Based Uncertainty Quantification in Spatiotemporal Graph
Neural Networks for Traffic Forecasting [2.088376060651494]
本稿では,短期交通予測のための最先端手法である拡散畳み込みリカレントニューラルネットワーク(DCRNN)に注目した。
我々はDCRNNの不確実性を定量化するスケーラブルなディープアンサンブル手法を開発した。
我々の汎用的かつスケーラブルなアプローチは、現在最先端のベイズ的手法や、多くの一般的な頻繁な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-04T16:10:55Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。