Fugu-MT 論文翻訳(概要): Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution

論文の概要: Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution

arxiv url: http://arxiv.org/abs/2312.07823v4
Date: Fri, 19 Jan 2024 12:18:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 18:30:26.363582
Title: Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution
Title（参考訳）: semantic lens: ビデオ超解像のためのインスタンス中心の意味アライメント
Authors: Qi Tang, Yao Zhao, Meiqin Liu, Jian Jin, and Chao Yao
Abstract要約: フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
参考スコア（独自算出の注目度）: 36.48329560039897
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As a critical clue of video super-resolution (VSR), inter-frame alignment significantly impacts overall performance. However, accurate pixel-level alignment is a challenging task due to the intricate motion interweaving in the video. In response to this issue, we introduce a novel paradigm for VSR named Semantic Lens, predicated on semantic priors drawn from degraded videos. Specifically, video is modeled as instances, events, and scenes via a Semantic Extractor. Those semantics assist the Pixel Enhancer in understanding the recovered contents and generating more realistic visual results. The distilled global semantics embody the scene information of each frame, while the instance-specific semantics assemble the spatial-temporal contexts related to each instance. Furthermore, we devise a Semantics-Powered Attention Cross-Embedding (SPACE) block to bridge the pixel-level features with semantic knowledge, composed of a Global Perspective Shifter (GPS) and an Instance-Specific Semantic Embedding Encoder (ISEE). Concretely, the GPS module generates pairs of affine transformation parameters for pixel-level feature modulation conditioned on global semantics. After that, the ISEE module harnesses the attention mechanism to align the adjacent frames in the instance-centric semantic space. In addition, we incorporate a simple yet effective pre-alignment module to alleviate the difficulty of model training. Extensive experiments demonstrate the superiority of our model over existing state-of-the-art VSR methods.
Abstract（参考訳）: ビデオ超解像(VSR)の重要な手がかりとして、フレーム間のアライメントは全体的なパフォーマンスに大きな影響を及ぼす。しかし、正確なピクセルレベルのアライメントはビデオ内の複雑な動きのために難しい課題である。この問題に対して、劣化ビデオから引き出されたセマンティック・レンズのセマンティック・レンズという新しいパラダイムを導入する。具体的には、ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。これらのセマンティクスは、回復したコンテンツを理解し、よりリアルなビジュアル結果を生成するピクセルエンハンサーを支援する。蒸留されたグローバルセマンティクスは各フレームのシーン情報を具現化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てる。さらに,GPS(Global Perspective Shifter)とISEE(Instance-Specific Semantic Embedding Encoder)で構成される,ピクセルレベルの特徴を意味知識でブリッジするためのセマンティックス・パワード・アテンション・クロスエンベディング(SPACE)ブロックを考案した。具体的には,グローバルセマンティクスに基づく画素レベルの特徴変調のためのアフィン変換パラメータのペアを生成する。その後、ISEEモジュールはアテンションメカニズムを利用して、隣接するフレームをインスタンス中心のセマンティック空間に整列させる。さらに,モデルトレーニングの難しさを軽減するために,単純かつ効果的な事前調整モジュールを組み込んだ。広範な実験により、既存のvsrメソッドよりも優れたモデルが示されました。

関連論文リスト

DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。 NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2025-12-12T10:39:10Z)
Towards 3D Object-Centric Feature Learning for Semantic Scene Completion [18.41627244498394]
視覚に基づく3Dセマンティックシーンコンプリート(SSC)は、自動運転の可能性から注目を集めている。シーンを個々のオブジェクトインスタンスに分解するオブジェクト中心の予測フレームワークであるOceanを提案する。その結果,Oceanは17.40点,mIoUスコアは20.28点であった。
論文参考訳（メタデータ） (2025-11-17T06:28:26Z)
Exploring The Missing Semantics In Event Modality [15.06471990384093]
イベントカメラには、低レイテンシ、高ダイナミックレンジ、効率的なモーションキャプチャなど、明確なメリットがある。イベント・ツー・ビデオ・リコンストラクション(E2V)は、特に意味情報の再構築と復元が困難なままである。本稿では,イベントモダリティにおける視覚的意味知識の欠如を探索するE2VフレームワークであるSemantic-E2VIDを提案する。
論文参考訳（メタデータ） (2025-10-20T09:45:13Z)
RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization [50.75654397516163]
様々な解像度とモダリティに対応する統一フレームワークであるRelayFormerを提案する。 RelayFormerは、入力を固定サイズのサブイメージに分割し、Global-Local Relay(GLR)トークンを導入する。これにより、セマンティックや時間的一貫性などのグローバルなキューを効率よく交換でき、きめ細かいアーティファクトを保存できる。
論文参考訳（メタデータ） (2025-08-13T03:35:28Z)
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。 SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文参考訳（メタデータ） (2025-07-21T17:59:02Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文参考訳（メタデータ） (2025-06-27T07:34:28Z)
Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。 SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文参考訳（メタデータ） (2025-05-25T17:42:53Z)
Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文参考訳（メタデータ） (2025-03-25T02:12:35Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。 OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文参考訳（メタデータ） (2024-12-12T14:53:16Z)
SMC++: Masked Learning of Unsupervised Video Semantic Compression [54.62883091552163]
ビデオセマンティクスを特に保持するMasked Video Modeling (MVM) を利用した圧縮フレームワークを提案する。 MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練している。また、簡単なテクスチャの詳細やビットコストの浪費、セマンティックノイズなど、意味のない情報をエンコードすることもできる。
論文参考訳（メタデータ） (2024-06-07T09:06:40Z)
Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文参考訳（メタデータ） (2024-05-11T15:09:22Z)
Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition [16.828560953073495]
本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。我々は各フレームのエンティティ・ツー・リージョンのアライメントを利用して、領域認識画像の埋め込みをオフラインで構築したテキストコーパスにマッチングすることでアライメントを実現する。 ALTは計算コストを著しく低く保ちながら、競争性能を示す。
論文参考訳（メタデータ） (2023-11-27T08:32:28Z)
Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文参考訳（メタデータ） (2023-09-23T04:12:02Z)
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2023-05-26T15:13:44Z)
Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。 DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文参考訳（メタデータ） (2023-03-27T15:21:43Z)
SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition [26.571128345615108]
本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
論文参考訳（メタデータ） (2022-07-21T01:41:53Z)
Semantic-shape Adaptive Feature Modulation for Semantic Image Synthesis [71.56830815617553]
きめ細かい部分レベルのセマンティックレイアウトは、オブジェクトの詳細生成に役立ちます。各画素の位置特徴を記述するために,SPD (Shape-aware Position Descriptor) を提案する。セマンティック形状適応特徴変調 (SAFM) ブロックは, 与えられた意味マップと位置特徴を組み合わせるために提案される。
論文参考訳（メタデータ） (2022-03-31T09:06:04Z)
In-N-Out Generative Learning for Dense Unsupervised Video Segmentation [89.21483504654282]
本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。 In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。我々のINOは、最先端の手法をかなりのマージンで上回っている。
論文参考訳（メタデータ） (2022-03-29T07:56:21Z)
Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文参考訳（メタデータ） (2022-03-29T05:52:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。