論文の概要: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer
- arxiv url: http://arxiv.org/abs/2412.14598v2
- Date: Mon, 23 Dec 2024 08:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 12:13:19.316375
- Title: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer
- Title(参考訳): SparseViT:スペア符号化変換器による非意味中心・パラメータ効率な画像操作位置決め
- Authors: Lei Su, Xiaochen Ma, Xuekang Zhu, Chaoqun Niu, Zeyu Lei, Ji-Zhe Zhou,
- Abstract要約: 非意味的特徴は文脈非関連であり、操作に敏感である。
スパースビジョントランス (Sparse Vision Transformer, SparseViT) は、ViTの密集したグローバルな自己意識をスパースな個別の方法で再構成する。
既存のIMLモデルと比較して、スパース自己注意機構はモデルサイズを大幅に削減した。
- 参考スコア(独自算出の注目度): 4.6840090741947655
- License:
- Abstract: Non-semantic features or semantic-agnostic features, which are irrelevant to image context but sensitive to image manipulations, are recognized as evidential to Image Manipulation Localization (IML). Since manual labels are impossible, existing works rely on handcrafted methods to extract non-semantic features. Handcrafted non-semantic features jeopardize IML model's generalization ability in unseen or complex scenarios. Therefore, for IML, the elephant in the room is: How to adaptively extract non-semantic features? Non-semantic features are context-irrelevant and manipulation-sensitive. That is, within an image, they are consistent across patches unless manipulation occurs. Then, spare and discrete interactions among image patches are sufficient for extracting non-semantic features. However, image semantics vary drastically on different patches, requiring dense and continuous interactions among image patches for learning semantic representations. Hence, in this paper, we propose a Sparse Vision Transformer (SparseViT), which reformulates the dense, global self-attention in ViT into a sparse, discrete manner. Such sparse self-attention breaks image semantics and forces SparseViT to adaptively extract non-semantic features for images. Besides, compared with existing IML models, the sparse self-attention mechanism largely reduced the model size (max 80% in FLOPs), achieving stunning parameter efficiency and computation reduction. Extensive experiments demonstrate that, without any handcrafted feature extractors, SparseViT is superior in both generalization and efficiency across benchmark datasets.
- Abstract(参考訳): 非意味的特徴や意味論的特徴は、画像コンテキストとは無関係であるが、画像操作に敏感である。
手動ラベルは不可能であるため、既存の作業は非意味的な特徴を抽出するための手作りの手法に依存している。
手作りの非セマンティックな特徴は、見えないシナリオや複雑なシナリオにおいて、MLモデルの一般化能力を危険にさらす。
したがって、IMLでは、室内の象は次のようなものである: 非意味的特徴を適応的に抽出する方法?
非意味的特徴は文脈非関連であり、操作に敏感である。
つまり、イメージ内では、操作が発生しない限り、パッチ間で一貫性がある。
そして、画像パッチ間の予備的および離散的な相互作用は、非意味的特徴を抽出するのに十分である。
しかし、イメージセマンティクスはパッチによって大きく異なるため、セマンティクスを学習するためには、イメージパッチ間の密接かつ連続的な相互作用が必要である。
そこで本稿では,ViTにおける高密度でグローバルな自己意識をスパースかつ離散的な方法で再構成するスパースビジョントランス (SparseViT) を提案する。
このようなスパースな自己注意はイメージセマンティクスを破り、SparseViTに画像の非意味的特徴を適応的に抽出するよう強制する。
さらに,既存のIMLモデルと比較して,スパース自己保持機構はモデルサイズ(FLOPの最大80%)を大幅に削減し,パラメータ効率と計算効率の大幅な向上を実現した。
広範な実験により、手作りの特徴抽出器がなければ、SparseViTはベンチマークデータセット間の一般化と効率の両方において優れていることが示されている。
関連論文リスト
- Semantic-aware Representation Learning for Homography Estimation [28.70450397793246]
本研究では,検出不要な特徴マッチング手法であるSRMatcherを提案する。
マッチングペアにおける意味的不整合に起因するエラーを減らすことで、提案したSRMatcherはより正確で現実的な結果をもたらすことができる。
論文 参考訳(メタデータ) (2024-07-18T08:36:28Z) - TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Semantic-aware Data Augmentation for Text-to-image Synthesis [19.28143363034362]
テキスト・ツー・イメージ合成(T2Isyn)では、拡張の知恵は、拡張されたペアデータ間のセマンティックミスマッチに苦しむ。
本稿では,T2Isyn専用のSemantic-Aware Data Augmentationフレームワークを開発する。
論文 参考訳(メタデータ) (2023-12-13T07:57:40Z) - IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer [25.673986942179123]
高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。
優れたIMLモデルとは何か?答はアーティファクトをキャプチャする方法にある。
We build a ViT paradigm IML-ViT, which has a high- resolution capacity, multi-scale feature extract capabilities, and manipulate edge supervision。
我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-27T13:49:27Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Semantic-shape Adaptive Feature Modulation for Semantic Image Synthesis [71.56830815617553]
きめ細かい部分レベルのセマンティックレイアウトは、オブジェクトの詳細生成に役立ちます。
各画素の位置特徴を記述するために,SPD (Shape-aware Position Descriptor) を提案する。
セマンティック形状適応特徴変調 (SAFM) ブロックは, 与えられた意味マップと位置特徴を組み合わせるために提案される。
論文 参考訳(メタデータ) (2022-03-31T09:06:04Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。