論文の概要: Attention to Detail: Global-Local Attention for High-Resolution AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2601.00141v1
- Date: Thu, 01 Jan 2026 00:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.278486
- Title: Attention to Detail: Global-Local Attention for High-Resolution AI-Generated Image Detection
- Title(参考訳): 詳細への注意:高分解能AI生成画像検出のためのグローバルローカル注意
- Authors: Lawrence Han,
- Abstract要約: GLASSは、グローバルに再サイズされたビューと、ランダムにサンプリングされた複数のローカル作物を組み合わせたアーキテクチャである。
視覚モデルに統合することで、任意のサイズの画像のグローバル情報とローカル情報の両方を活用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of generative AI has made AI-generated images increasingly realistic and high-resolution. Most AI-generated image detection architectures typically downsample images before inputting them into models, risking the loss of fine-grained details. This paper presents GLASS (Global-Local Attention with Stratified Sampling), an architecture that combines a globally resized view with multiple randomly sampled local crops. These crops are original-resolution regions efficiently selected through spatially stratified sampling and aggregated using attention-based scoring. GLASS can be integrated into vision models to leverage both global and local information in images of any size. Vision Transformer, ResNet, and ConvNeXt models are used as backbones, and experiments show that GLASS outperforms standard transfer learning by achieving higher predictive performance within feasible computational constraints.
- Abstract(参考訳): 生成AIの急速な開発により、AI生成画像はますます現実的で高解像度になっている。
AIが生成するほとんどの画像検出アーキテクチャは、通常、それらをモデルに入力する前にイメージをダウンサンプルし、きめ細かい詳細が失われるリスクがある。
本稿では,GLASS(Global-Local Attention with Stratified Sampling)について述べる。
これらの作物は、空間的に成層されたサンプリングによって効率よく選択され、アテンションベースのスコアリングを用いて集約される。
GLASSは、任意のサイズの画像のグローバル情報とローカル情報の両方を活用するために、視覚モデルに統合することができる。
Vision Transformer、ResNet、ConvNeXtモデルはバックボーンとして使用され、実験により、GLASSは計算制約内で高い予測性能を達成し、標準転送学習より優れていることが示された。
関連論文リスト
- NS-Net: Decoupling CLIP Semantic Information through NULL-Space for Generalizable AI-Generated Image Detection [14.7077339945096]
NS-Netは、CLIPの視覚的特徴から意味情報を分離する新しいフレームワークである。
実験の結果、NS-Netは既存の最先端手法よりも優れており、検出精度は7.4%向上している。
論文 参考訳(メタデータ) (2025-08-02T07:58:15Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - LDR-Net: A Novel Framework for AI-generated Image Detection via Localized Discrepancy Representation [30.677834580640123]
本稿では,AI生成画像を検出するために,LDR-Net(Localized Disrepancy representation Network)を提案する。
LDR-Netはスムーズなアーティファクトやテクスチャの不規則をキャプチャする。
生成した画像の検出における最先端性能を実現し、目に見えない生成モデル間で満足な一般化を示す。
論文 参考訳(メタデータ) (2025-01-23T08:46:39Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution [81.74583887661794]
整数と非整数のスケーリング要素を併用した,新しい実世界のスーパーレゾリューションベンチマークを構築した。
実世界の任意の超解像を解くために,Dual-level Deformable Implicit Representation (DDIR)を提案する。
実世界の任意の超解像のためのRealArbiSRおよびRealSRベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-16T13:44:42Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。
GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文 参考訳(メタデータ) (2022-11-16T02:03:20Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Fusing Global and Local Features for Generalized AI-Synthesized Image
Detection [31.35052580048599]
画像全体からのグローバル空間情報と,新しいパッチ選択モジュールによって選択されたパッチからの局所的な情報的特徴を結合する2分岐モデルを設計する。
さまざまなオブジェクトと解像度を持つ19のモデルで合成された非常に多様なデータセットを収集し、モデルを評価する。
論文 参考訳(メタデータ) (2022-03-26T01:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。