論文の概要: Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution
- arxiv url: http://arxiv.org/abs/2312.07823v2
- Date: Mon, 18 Dec 2023 13:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:53:21.556997
- Title: Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution
- Title(参考訳): semantic lens: ビデオ超解像のためのインスタンス中心の意味アライメント
- Authors: Qi Tang, Yao Zhao, Meiqin Liu, Jian Jin, and Chao Yao
- Abstract要約: フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである
本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。
ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
- 参考スコア(独自算出の注目度): 36.48329560039897
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As a critical clue of video super-resolution (VSR), inter-frame alignment
significantly impacts overall performance. However, accurate pixel-level
alignment is a challenging task due to the intricate motion interweaving in the
video. In response to this issue, we introduce a novel paradigm for VSR named
Semantic Lens, predicated on semantic priors drawn from degraded videos.
Specifically, video is modeled as instances, events, and scenes via a Semantic
Extractor. Those semantics assist the Pixel Enhancer in understanding the
recovered contents and generating more realistic visual results. The distilled
global semantics embody the scene information of each frame, while the
instance-specific semantics assemble the spatial-temporal contexts related to
each instance. Furthermore, we devise a Semantics-Powered Attention
Cross-Embedding (SPACE) block to bridge the pixel-level features with semantic
knowledge, composed of a Global Perspective Shifter (GPS) and an
Instance-Specific Semantic Embedding Encoder (ISEE). Concretely, the GPS module
generates pairs of affine transformation parameters for pixel-level feature
modulation conditioned on global semantics. After that, the ISEE module
harnesses the attention mechanism to align the adjacent frames in the
instance-centric semantic space. In addition, we incorporate a simple yet
effective pre-alignment module to alleviate the difficulty of model training.
Extensive experiments demonstrate the superiority of our model over existing
state-of-the-art VSR methods.
- Abstract(参考訳): ビデオ超解像(VSR)の重要な手がかりとして、フレーム間のアライメントは全体的なパフォーマンスに大きな影響を及ぼす。
しかし、正確なピクセルレベルのアライメントはビデオ内の複雑な動きのために難しい課題である。
この問題に対して、劣化ビデオから引き出されたセマンティック・レンズのセマンティック・レンズという新しいパラダイムを導入する。
具体的には、ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
これらのセマンティクスは、回復したコンテンツを理解し、よりリアルなビジュアル結果を生成するピクセルエンハンサーを支援する。
蒸留されたグローバルセマンティクスは各フレームのシーン情報を具現化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てる。
さらに,GPS(Global Perspective Shifter)とISEE(Instance-Specific Semantic Embedding Encoder)で構成される,ピクセルレベルの特徴を意味知識でブリッジするためのセマンティックス・パワード・アテンション・クロスエンベディング(SPACE)ブロックを考案した。
具体的には,グローバルセマンティクスに基づく画素レベルの特徴変調のためのアフィン変換パラメータのペアを生成する。
その後、ISEEモジュールはアテンションメカニズムを利用して、隣接するフレームをインスタンス中心のセマンティック空間に整列させる。
さらに,モデルトレーニングの難しさを軽減するために,単純かつ効果的な事前調整モジュールを組み込んだ。
広範な実験により、既存のvsrメソッドよりも優れたモデルが示されました。
関連論文リスト
- SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。
MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。
また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文 参考訳(メタデータ) (2024-06-07T09:06:40Z) - Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。
すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文 参考訳(メタデータ) (2024-05-11T15:09:22Z) - Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition [16.828560953073495]
本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。
我々は各フレームのエンティティ・ツー・リージョンのアライメントを利用して、領域認識画像の埋め込みをオフラインで構築したテキストコーパスにマッチングすることでアライメントを実現する。
ALTは計算コストを著しく低く保ちながら、競争性能を示す。
論文 参考訳(メタデータ) (2023-11-27T08:32:28Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition [26.571128345615108]
本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
論文 参考訳(メタデータ) (2022-07-21T01:41:53Z) - Semantic-shape Adaptive Feature Modulation for Semantic Image Synthesis [71.56830815617553]
きめ細かい部分レベルのセマンティックレイアウトは、オブジェクトの詳細生成に役立ちます。
各画素の位置特徴を記述するために,SPD (Shape-aware Position Descriptor) を提案する。
セマンティック形状適応特徴変調 (SAFM) ブロックは, 与えられた意味マップと位置特徴を組み合わせるために提案される。
論文 参考訳(メタデータ) (2022-03-31T09:06:04Z) - In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文 参考訳(メタデータ) (2022-03-29T07:56:21Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。