論文の概要: ForgeryTTT: Zero-Shot Image Manipulation Localization with Test-Time Training
- arxiv url: http://arxiv.org/abs/2410.04032v1
- Date: Sat, 5 Oct 2024 04:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:40:27.469199
- Title: ForgeryTTT: Zero-Shot Image Manipulation Localization with Test-Time Training
- Title(参考訳): ForgeryTTT:テスト時間トレーニングによるゼロショット画像操作位置決め
- Authors: Weihuang Liu, Xi Shen, Chi-Man Pun, Xiaodong Cun,
- Abstract要約: ソーシャルメディアは、現実的なフェイク画像に悩まされているため、コンテンツを信頼するのは難しい。
これらの偽物を検出するアルゴリズムは、特定のデータセットでトレーニングされているため、新しい現実世界のシナリオでは失敗することが多い。
ForgeryTTTは、画像中の操作された領域を識別するためにテスト時間トレーニングを利用する最初の方法である。
- 参考スコア(独自算出の注目度): 42.58645429356456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media is increasingly plagued by realistic fake images, making it hard to trust content. Previous algorithms to detect these fakes often fail in new, real-world scenarios because they are trained on specific datasets. To address the problem, we introduce ForgeryTTT, the first method leveraging test-time training (TTT) to identify manipulated regions in images. The proposed approach fine-tunes the model for each individual test sample, improving its performance. ForgeryTTT first employs vision transformers as a shared image encoder to learn both classification and localization tasks simultaneously during the training-time training using a large synthetic dataset. Precisely, the localization head predicts a mask to highlight manipulated areas. Given such a mask, the input tokens can be divided into manipulated and genuine groups, which are then fed into the classification head to distinguish between manipulated and genuine parts. During test-time training, the predicted mask from the localization head is used for the classification head to update the image encoder for better adaptation. Additionally, using the classical dropout strategy in each token group significantly improves performance and efficiency. We test ForgeryTTT on five standard benchmarks. Despite its simplicity, ForgeryTTT achieves a 20.1% improvement in localization accuracy compared to other zero-shot methods and a 4.3% improvement over non-zero-shot techniques. Our code and data will be released upon publication.
- Abstract(参考訳): ソーシャルメディアは、現実的なフェイク画像に悩まされているため、コンテンツを信頼するのは難しい。
これらの偽物を検出するアルゴリズムは、特定のデータセットでトレーニングされているため、新しい現実世界のシナリオでは失敗することが多い。
この問題を解決するために,テスト時間トレーニング(TTT)を利用した画像中の操作領域の同定手法であるForgeryTTTを導入する。
提案手法は各テストサンプル毎にモデルを微調整し,性能を向上する。
ForgeryTTTはまず、視覚変換器を共有イメージエンコーダとして使用して、大規模な合成データセットを使用してトレーニング時間トレーニング中に、分類タスクとローカライゼーションタスクの両方を同時に学習する。
正確には、ローカライゼーションヘッドはマスクを予測して、操作された領域をハイライトする。
このようなマスクが与えられた場合、入力トークンは操作されたグループと本物のグループに分割することができ、それを分類ヘッドに送って操作された部分と本物の部分とを区別する。
テスト時間トレーニング中、ローカライゼーションヘッドからの予測マスクを分類ヘッドに使用し、画像エンコーダを更新して適応性を向上させる。
さらに、各トークングループで古典的なドロップアウト戦略を使用することで、パフォーマンスと効率が大幅に向上する。
5つの標準ベンチマークでForgeryTTTをテストする。
その単純さにもかかわらず、ForgeryTTTは、他のゼロショット手法と比較して、ローカライズ精度が20.1%向上し、ノンゼロショット技術よりも4.3%向上した。
私たちのコードとデータは出版時に公開されます。
関連論文リスト
- Towards Generic Image Manipulation Detection with Weakly-Supervised
Self-Consistency Learning [49.43362803584032]
本稿では,弱い教師付き画像操作検出を提案する。
このような設定は、より多くのトレーニングイメージを活用することができ、新しい操作テクニックに迅速に適応する可能性がある。
マルチソース整合性(MSC)とパッチ整合性(IPC)の2つの一貫性特性が学習される。
論文 参考訳(メタデータ) (2023-09-03T19:19:56Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。