Fugu-MT 論文翻訳(概要): IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer

論文の概要: IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer

arxiv url: http://arxiv.org/abs/2307.14863v4
Date: Sun, 24 Nov 2024 11:40:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 18:31:37.395093
Title: IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer
Title（参考訳）: IML-ViT:視覚変換器による画像操作位置のベンチマーク
Authors: Xiaochen Ma, Bo Du, Zhuohang Jiang, Xia Du, Ahmed Y. Al Hammadi, Jizhe Zhou,
Abstract要約: 高度な画像改ざん技術はマルチメディアの信頼性に挑戦している。優れたIMLモデルとは何か?答はアーティファクトをキャプチャする方法にある。 We build a ViT paradigm IML-ViT, which has a high- resolution capacity, multi-scale feature extract capabilities, and manipulate edge supervision。我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。
参考スコア（独自算出の注目度）: 25.673986942179123
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (IML). But what makes a good IML model? The answer lies in the way to capture artifacts. Exploiting artifacts requires the model to extract non-semantic discrepancies between manipulated and authentic regions, necessitating explicit comparisons between the two areas. With the self-attention mechanism, naturally, the Transformer should be a better candidate to capture artifacts. However, due to limited datasets, there is currently no pure ViT-based approach for IML to serve as a benchmark, and CNNs dominate the entire task. Nevertheless, CNNs suffer from weak long-range and non-semantic modeling. To bridge this gap, based on the fact that artifacts are sensitive to image resolution, amplified under multi-scale features, and massive at the manipulation border, we formulate the answer to the former question as building a ViT with high-resolution capacity, multi-scale feature extraction capability, and manipulation edge supervision that could converge with a small amount of data. We term this simple but effective ViT paradigm IML-ViT, which has significant potential to become a new benchmark for IML. Extensive experiments on three different mainstream protocols verified our model outperforms the state-of-the-art manipulation localization methods. Code and models are available at https://github.com/SunnyHaze/IML-ViT.
Abstract（参考訳）: 高度な画像改ざん技術は、マルチメディアの信頼性にますます挑戦し、画像マニピュレーション・ローカライゼーション(IML)の開発に繋がる。しかし、優れたIMLモデルを作る理由は何ですか? 答えは、アーティファクトをキャプチャする方法にあります。爆発するアーティファクトは、操作された領域と認証された領域の間に非意味的な不一致を抽出する必要がある。自己認識機構を使えば、Transformerはアーティファクトをキャプチャする上で、よりよい候補になるはずだ。しかし、データセットが限られているため、現在、IMLがベンチマークとして機能するための純粋なViTベースのアプローチは存在せず、CNNがタスク全体を支配している。それでもCNNは、弱い長距離と非セマンティックモデリングに悩まされている。このギャップを埋めるために、画像の解像度に敏感なアーティファクトをマルチスケールで増幅し、操作境界で巨大化するという事実に基づいて、高解像度容量のViT、マルチスケールの特徴抽出機能、少量のデータに収束可能なエッジ監視機能を構築するという、前者の質問に対する回答を定式化する。我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。 3つの主要なプロトコルに対する大規模な実験により、我々のモデルは最先端の操作ローカライゼーション手法よりも優れていた。コードとモデルはhttps://github.com/SunnyHaze/IML-ViT.comで入手できる。

関連論文リスト

IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。 MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文参考訳（メタデータ） (2025-10-16T02:48:05Z)
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。 PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。 MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-10-02T12:23:57Z)
Webly-Supervised Image Manipulation Localization via Category-Aware Auto-Annotation [49.83611963142304]
画像編集ツールを使って操作された画像は、視聴者を誤解させ、社会保障に重大なリスクをもたらす可能性がある。この領域の主な障壁の1つは、データ取得の高コストと、高品質な注釈付きデータセットの深刻な欠如である。我々は、Webから手動で鍛造された画像の大規模なコレクションと、自動生成されたアノテーションを利用する。我々はMIMLv2を構築する。MIMLv2は大規模で多彩で高品質なデータセットで、246,212個の手動鍛造画像とピクセルレベルのマスクアノテーションを備えている。
論文参考訳（メタデータ） (2025-08-28T16:44:40Z)
Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文参考訳（メタデータ） (2025-03-24T19:56:02Z)
A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization [15.647035299476894]
従来のCNN機能と手動で設計した特徴雑音を統合したデュアルブランチモデルを開発した。このモデルは比較において優れており、既存の最先端モデル(SoTA)よりも容易に優れている。
論文参考訳（メタデータ） (2024-09-02T02:18:34Z)
Tex-ViT: A Generalizable, Robust, Texture-based dual-branch cross-attention deepfake detector [15.647035299476894]
Tex-ViT (Texture-Vision Transformer)は、ResNetと視覚変換器を組み合わせることでCNN機能を強化する。このモデルは従来のResNet機能と、各ダウンサンプリング操作の前にResNetのセクションで並列に動作するテクスチャモジュールを組み合わせる。これは特に、特徴写像相関を抽出するグローバルテクスチャモジュールの改善に焦点を当てている。
論文参考訳（メタデータ） (2024-08-29T20:26:27Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。 ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文参考訳（メタデータ） (2024-04-30T15:49:03Z)
DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2023-02-03T14:59:31Z)
RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。 ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-24T18:50:48Z)
Masked autoencoders are effective solution to transformer data-hungry [0.0]
ビジョントランスフォーマー(ViT)は、いくつかのビジョンタスクにおいて、そのグローバルモデリング能力で畳み込みニューラルネットワーク(CNN)を上回っている。 ViTには、畳み込みに固有の帰納バイアスがなく、トレーニングに大量のデータを必要とする。マスク付きオートエンコーダ(MAE)は、トランスフォーマーが画像自体にもっと焦点を合わせることができる。
論文参考訳（メタデータ） (2022-12-12T03:15:19Z)
Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文参考訳（メタデータ） (2022-04-22T14:38:40Z)
Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。 CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。 HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文参考訳（メタデータ） (2022-03-31T11:18:41Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文参考訳（メタデータ） (2021-06-07T05:31:06Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。