論文の概要: Can SAM Boost Video Super-Resolution?
- arxiv url: http://arxiv.org/abs/2305.06524v2
- Date: Fri, 12 May 2023 01:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:16:07.603195
- Title: Can SAM Boost Video Super-Resolution?
- Title(参考訳): SAMは超解像を加速できるか?
- Authors: Zhihe Lu, Zeyu Xiao, Jiawang Bai, Zhiwei Xiong, Xinchao Wang
- Abstract要約: 単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
- 参考スコア(独自算出の注目度): 78.29033914169025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary challenge in video super-resolution (VSR) is to handle large
motions in the input frames, which makes it difficult to accurately aggregate
information from multiple frames. Existing works either adopt deformable
convolutions or estimate optical flow as a prior to establish correspondences
between frames for the effective alignment and fusion. However, they fail to
take into account the valuable semantic information that can greatly enhance
it; and flow-based methods heavily rely on the accuracy of a flow estimate
model, which may not provide precise flows given two low-resolution frames.
In this paper, we investigate a more robust and semantic-aware prior for
enhanced VSR by utilizing the Segment Anything Model (SAM), a powerful
foundational model that is less susceptible to image degradation. To use the
SAM-based prior, we propose a simple yet effective module -- SAM-guidEd
refinEment Module (SEEM), which can enhance both alignment and fusion
procedures by the utilization of semantic information. This light-weight
plug-in module is specifically designed to not only leverage the attention
mechanism for the generation of semantic-aware feature but also be easily and
seamlessly integrated into existing methods. Concretely, we apply our SEEM to
two representative methods, EDVR and BasicVSR, resulting in consistently
improved performance with minimal implementation effort, on three widely used
VSR datasets: Vimeo-90K, REDS and Vid4. More importantly, we found that the
proposed SEEM can advance the existing methods in an efficient tuning manner,
providing increased flexibility in adjusting the balance between performance
and the number of training parameters. Code will be open-source soon.
- Abstract(参考訳): ビデオ超解像(VSR)の主な課題は、入力フレーム内の大きな動きを扱うことであり、複数のフレームから情報を正確に集約することは困難である。
既存の作品は変形可能な畳み込みを採用するか、または光学フローを事前に推定し、効果的なアライメントと融合のためのフレーム間の対応を確立する。
フローベースの手法はフロー推定モデルの精度に大きく依存しており、2つの低解像度フレームの正確な流れを提供しない可能性がある。
本稿では,画像劣化の影響を受けにくい強力な基盤モデルであるSegment Anything Model (SAM) を用いて,VSRの強化に先立って,より堅牢でセマンティックな手法を検討する。
samベースのプリエントを使用するために,単純な効果的なモジュールであるsam-guidedfinement module (seem)を提案する。
この軽量プラグインモジュールは、セマンティックアウェア機能の生成に注意機構を活用するだけでなく、既存のメソッドに簡単かつシームレスに統合できるように設計されている。
具体的には、このSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、Vimeo-90K, REDS, Vid4の3つの広く使われているVSRデータセットに対して、最小限の実装労力で継続的に性能を改善した。
さらに重要なことは,提案したSEEMが既存の手法を効率的なチューニング方式で進めることによって,性能とトレーニングパラメータ数のバランスを調整する柔軟性が向上することである。
コードは近くオープンソースになる。
関連論文リスト
- Rapid and Power-Aware Learned Optimization for Modular Receive Beamforming [27.09017677987757]
マルチインプット・マルチアウトプット(MIMO)システムは無線通信技術において重要な役割を果たす。
モジュールハイブリッドシステムにおけるビームフォーミングのための電力指向最適化アルゴリズムを提案する。
低分解能位相シフトによる計算の高速化を通じて、学習者によって効率の良いビームフォーミングがいかに促進されるかを示す。
論文 参考訳(メタデータ) (2024-08-01T10:19:25Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。