Fugu-MT 論文翻訳(概要): Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization Through Spare-Coding Transformer

論文の概要: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization Through Spare-Coding Transformer

arxiv url: http://arxiv.org/abs/2412.14598v1
Date: Thu, 19 Dec 2024 07:39:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.040715
Title: Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization Through Spare-Coding Transformer
Title（参考訳）: SparseViT:スペア符号化変換器による非意味中心・パラメータ効率な画像操作位置決め
Authors: Lei Su, Xiaochen Ma, Xuekang Zhu, Chaoqun Niu, Zeyu Lei, Ji-Zhe Zhou,
Abstract要約: 非意味的特徴は文脈非関連であり、操作に敏感である。スパースビジョントランス (Sparse Vision Transformer, SparseViT) は、ViTの密集したグローバルな自己意識をスパースな個別の方法で再構成する。既存のIMLモデルと比較して、スパース自己注意機構はモデルサイズを大幅に削減した。
参考スコア（独自算出の注目度）: 4.6840090741947655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Non-semantic features or semantic-agnostic features, which are irrelevant to image context but sensitive to image manipulations, are recognized as evidential to Image Manipulation Localization (IML). Since manual labels are impossible, existing works rely on handcrafted methods to extract non-semantic features. Handcrafted non-semantic features jeopardize IML model's generalization ability in unseen or complex scenarios. Therefore, for IML, the elephant in the room is: How to adaptively extract non-semantic features? Non-semantic features are context-irrelevant and manipulation-sensitive. That is, within an image, they are consistent across patches unless manipulation occurs. Then, spare and discrete interactions among image patches are sufficient for extracting non-semantic features. However, image semantics vary drastically on different patches, requiring dense and continuous interactions among image patches for learning semantic representations. Hence, in this paper, we propose a Sparse Vision Transformer (SparseViT), which reformulates the dense, global self-attention in ViT into a sparse, discrete manner. Such sparse self-attention breaks image semantics and forces SparseViT to adaptively extract non-semantic features for images. Besides, compared with existing IML models, the sparse self-attention mechanism largely reduced the model size (max 80% in FLOPs), achieving stunning parameter efficiency and computation reduction. Extensive experiments demonstrate that, without any handcrafted feature extractors, SparseViT is superior in both generalization and efficiency across benchmark datasets.
Abstract（参考訳）: 非意味的特徴や意味論的特徴は、画像コンテキストとは無関係であるが、画像操作に敏感である。手動ラベルは不可能であるため、既存の作業は非意味的な特徴を抽出するための手作りの手法に依存している。手作りの非セマンティックな特徴は、見えないシナリオや複雑なシナリオにおいて、MLモデルの一般化能力を危険にさらす。したがって、IMLでは、室内の象は次のようなものである: 非意味的特徴を適応的に抽出する方法? 非意味的特徴は文脈非関連であり、操作に敏感である。つまり、イメージ内では、操作が発生しない限り、パッチ間で一貫性がある。そして、画像パッチ間の予備的および離散的な相互作用は、非意味的特徴を抽出するのに十分である。しかし、イメージセマンティクスはパッチによって大きく異なるため、セマンティクスを学習するためには、イメージパッチ間の密接かつ連続的な相互作用が必要である。そこで本稿では,ViTにおける高密度でグローバルな自己意識をスパースかつ離散的な方法で再構成するスパースビジョントランス (SparseViT) を提案する。このようなスパースな自己注意はイメージセマンティクスを破り、SparseViTに画像の非意味的特徴を適応的に抽出するよう強制する。さらに,既存のIMLモデルと比較して,スパース自己保持機構はモデルサイズ(FLOPの最大80%)を大幅に削減し,パラメータ効率と計算効率の大幅な向上を実現した。広範な実験により、手作りの特徴抽出器がなければ、SparseViTはベンチマークデータセット間の一般化と効率の両方において優れていることが示されている。

関連論文リスト

SemanticSplat: Feed-Forward 3D Scene Understanding with Language-Aware Gaussian Fields [33.113865514268085]
ホロスティックな3Dシーン理解は、拡張現実やロボットインタラクションといったアプリケーションには不可欠だ。既存のフィードフォワード3Dシーン理解手法(例えば、LSM)は、シーンから言語ベースのセマンティクスを抽出することに限定されている。フィードフォワード型セマンティック3D再構成手法であるSemanticSplatを提案する。
論文参考訳（メタデータ） (2025-06-11T09:56:39Z)
Towards Generalized and Training-Free Text-Guided Semantic Manipulation [123.80467566483038]
テキスト誘導意味操作は、ソースプロンプトから生成された画像をセマンティックに編集し、ターゲットプロンプトにマッチさせる。本稿では,テキスト案内型セマンティック操作のための新しい$textitGTF$を提案する。本実験は,本手法の有効性を実証し,セマンティックス操作の最先端化の可能性を強調した。
論文参考訳（メタデータ） (2025-04-24T05:54:56Z)
SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning [38.507994878183474]
ゼロショット学習(ZSL)のための意味的文脈付き視覚パッチ(SVIP)を導入する。本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。 SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-13T10:59:51Z)
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
Semantic-aware Representation Learning for Homography Estimation [28.70450397793246]
本研究では,検出不要な特徴マッチング手法であるSRMatcherを提案する。マッチングペアにおける意味的不整合に起因するエラーを減らすことで、提案したSRMatcherはより正確で現実的な結果をもたらすことができる。
論文参考訳（メタデータ） (2024-07-18T08:36:28Z)
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文参考訳（メタデータ） (2023-12-21T18:59:06Z)
Semantic-aware Data Augmentation for Text-to-image Synthesis [19.28143363034362]
テキスト・ツー・イメージ合成(T2Isyn)では、拡張の知恵は、拡張されたペアデータ間のセマンティックミスマッチに苦しむ。本稿では,T2Isyn専用のSemantic-Aware Data Augmentationフレームワークを開発する。
論文参考訳（メタデータ） (2023-12-13T07:57:40Z)
Stochastic positional embeddings improve masked image modeling [95.03491875332034]
Masked Image Modeling (MIM)は、ラベルなし画像からの学習を可能にする、有望な自己教師型学習アプローチである。位置埋め込み(StoP)を用いて位置不確実性をMIMに組み込むことを提案する。 StoPは、ロケーション機能への過度な適合を減らし、ロケーションの不確実性に対して堅牢な学習機能に向けてモデルを導く。
論文参考訳（メタデータ） (2023-07-31T17:59:08Z)
IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer [25.673986942179123]
高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。優れたIMLモデルとは何か?答はアーティファクトをキャプチャする方法にある。 We build a ViT paradigm IML-ViT, which has a high- resolution capacity, multi-scale feature extract capabilities, and manipulate edge supervision。我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-07-27T13:49:27Z)
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-01-30T17:21:30Z)
Semantic-shape Adaptive Feature Modulation for Semantic Image Synthesis [71.56830815617553]
きめ細かい部分レベルのセマンティックレイアウトは、オブジェクトの詳細生成に役立ちます。各画素の位置特徴を記述するために,SPD (Shape-aware Position Descriptor) を提案する。セマンティック形状適応特徴変調 (SAFM) ブロックは, 与えられた意味マップと位置特徴を組み合わせるために提案される。
論文参考訳（メタデータ） (2022-03-31T09:06:04Z)
USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。 USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文参考訳（メタデータ） (2021-09-29T20:48:41Z)
NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文参考訳（メタデータ） (2021-04-13T01:53:26Z)
Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文参考訳（メタデータ） (2020-07-16T15:18:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。