論文の概要: Motion-state Alignment for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2304.08820v1
- Date: Tue, 18 Apr 2023 08:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:36:24.158039
- Title: Motion-state Alignment for Video Semantic Segmentation
- Title(参考訳): ビデオセマンティックセグメンテーションのための動作状態アライメント
- Authors: Jinming Su, Ruihong Yin, Shuaibin Zhang and Junfeng Luo
- Abstract要約: ビデオセマンティックセグメンテーションのための動き状態アライメントフレームワークを提案する。
提案手法は,動的および静的なセマンティクスをターゲットとしてピックアップする。
CityscapesとCamVidデータセットの実験は、提案手法が最先端の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 4.375012768093524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, video semantic segmentation has made great progress with
advanced deep neural networks. However, there still exist two main challenges
\ie, information inconsistency and computation cost. To deal with the two
difficulties, we propose a novel motion-state alignment framework for video
semantic segmentation to keep both motion and state consistency. In the
framework, we first construct a motion alignment branch armed with an efficient
decoupled transformer to capture dynamic semantics, guaranteeing region-level
temporal consistency. Then, a state alignment branch composed of a stage
transformer is designed to enrich feature spaces for the current frame to
extract static semantics and achieve pixel-level state consistency. Next, by a
semantic assignment mechanism, the region descriptor of each semantic category
is gained from dynamic semantics and linked with pixel descriptors from static
semantics. Benefiting from the alignment of these two kinds of effective
information, the proposed method picks up dynamic and static semantics in a
targeted way, so that video semantic regions are consistently segmented to
obtain precise locations with low computational complexity. Extensive
experiments on Cityscapes and CamVid datasets show that the proposed approach
outperforms state-of-the-art methods and validates the effectiveness of the
motion-state alignment framework.
- Abstract(参考訳): 近年、ビデオセマンティックセグメンテーションは、高度なディープニューラルネットワークで大きな進歩を遂げている。
しかし、情報の不整合と計算コストの2つの主な課題がある。
これら2つの問題に対処するため,動作と状態の整合性を維持するために,ビデオセマンティックセグメンテーションのための新しい動き状態アライメントフレームワークを提案する。
この枠組みでは,まず,動的意味を捉えるために,効率的な分離トランスを具備した動作アライメントブランチを構築し,領域レベルの時間的一貫性を保証した。
次に、ステージトランスからなる状態アライメントブランチを、現在のフレームの特徴空間を充実させ、静的セマンティクスを抽出し、画素レベルの状態一貫性を実現するように設計する。
次に、セマンティック代入機構により、各セマンティックカテゴリの領域記述子を動的セマンティクスから取得し、静的セマンティクスからピクセル記述子にリンクする。
提案手法は,これらの2種類の有効情報のアライメントから,動的および静的なセマンティクスをターゲットとして選択し,ビデオ意味領域を一貫したセグメンテーションにより,計算複雑性の低い正確な位置を求める。
CityscapesとCamVidデータセットの大規模な実験により、提案手法は最先端の手法より優れ、動き状態アライメントフレームワークの有効性が検証されている。
関連論文リスト
- Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:29:51Z) - Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。
提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文 参考訳(メタデータ) (2024-07-19T06:53:54Z) - Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。
提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文 参考訳(メタデータ) (2024-07-08T14:44:18Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Dynamic Dual Sampling Module for Fine-Grained Semantic Segmentation [27.624291416260185]
動的親和性モデリングを行い,意味的コンテキストを局所的な詳細に伝達する動的デュアルサンプリングモジュール(DDSM)を提案する。
City と Camvid のデータセットによる実験結果から,提案手法の有効性と有効性について検証した。
論文 参考訳(メタデータ) (2021-05-25T04:25:47Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。