論文の概要: When Eyes Betray AI: Social Gaze Consistency as a Semantic Cue for AI-Generated Image Detection
- arxiv url: http://arxiv.org/abs/2605.27348v1
- Date: Tue, 26 May 2026 17:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.578355
- Title: When Eyes Betray AI: Social Gaze Consistency as a Semantic Cue for AI-Generated Image Detection
- Title(参考訳): AIによる画像検出のためのセマンティックキューとしての社会的ゲイズ整合性
- Authors: Kim Jihyeon, Sohee Kim, Soosan Lee, Souhwan Jung, James Matthew Rehg, Hyesong Choi,
- Abstract要約: 本稿では,視線方向の相互コヒーレンス,頭部アライメント,対人関係の瞳孔配置として定義された高レベルの意味的キューであるソーシャル・ゲイズ・コンシステンシーを紹介する。
既存の低レベルパラダイムに対して,これまで未利用であった検出軸を構成することを示す。
4ステップのアカウントでは、単一インパインター(FLUX.1-Fill)のトレーニングがマルチジェネレータスイートに移行した理由が説明されている。
- 参考スコア(独自算出の注目度): 8.55568342913716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent generative models have largely closed the gap on low-level artifacts - pixel fingerprints, frequency anomalies, upsampling traces - particularly in person-centric and partial-edit settings where the manipulated region is small and surrounded by photometrically authentic content. We introduce Social Gaze Consistency, a high-level semantic cue defined as the mutual coherence of gaze direction, head-eye alignment, and pupil placement between interacting individuals, and show that it constitutes a previously underutilized detection axis orthogonal to existing low-level paradigms. We instantiate this insight through three coupled mechanisms: (i) a controlled diagnostic dataset with region-specific perturbations of gaze-consistent imagery, where strict pair-level grouping forecloses generator-fingerprint memorization as an optimization-time shortcut rather than relying on augmentation; (ii) Block-Compositional Caption Supervision, which holds a single 5-block reasoning skeleton invariant across 1,250 macro-combined captions, decoupling reasoning consistency from surface diversity; (iii) Cross-architecture validation showing the same supervision improves a vision-language backbone (FakeVLM) by +3.7 pp on the COCOAI Interaction subset (balanced accuracy 67.8 -> 71.5) and +1.3 pp on the COCOAI Person subset (83.0 -> 84.3), with consistent gains on a vision-only backbone (Effort), evidencing a backbone-agnostic cue. Real- and fake-class recalls rise simultaneously, ruling out a "predict-all-fake" artifact. A four-step mechanistic account - paired-edit shortcut blocking, hard-to-easy difficulty transfer, CLIP prior preservation, and diffusion-family shared spectral weakness in periocular structure - explains why training on a single inpainter (FLUX.1-Fill) transfers to multi-generator suites. We will release the code upon acceptance to facilitate reproducibility.
- Abstract(参考訳): 最近の生成モデルは、ピクセルの指紋、周波数異常、アップサンプリングトレース(特に、操作された領域が小さく、光量的に認証されたコンテンツに囲まれている人中心および部分編集設定)において、低レベルのアーティファクトのギャップを大きく埋めている。
本稿では,視線方向の相互コヒーレンス,頭部のアライメント,および瞳孔配置として定義された高レベルなセマンティックキューであるSocial Gaze Consistencyを紹介し,既存の低レベルパラダイムと直交する従来未利用な検出軸を構成することを示す。
この洞察を3つの結合メカニズムでインスタンス化する。
i) 厳密なペアレベルのグループ化が拡張に頼るのではなく、最適化時ショートカットとしてジェネレータ・フィンガープリント記憶を閉ざした、視線一貫性画像の領域特異的摂動を伴う制御された診断データセット。
(二)ブロック・コンポジション・キャプション・スーパービジョンは、1,250個のマクロ組み合わせキャプションにまたがる単一の5ブロック推論スケルトンを保有し、表面の多様性から推論一貫性を分離する。
3 同じ監督を示すクロスアーキテクチャ検証は、COCOAIインタラクションサブセット(精度67.8~>71.5)の+3.7pp、COCOAI Personサブセット(83.0~>84.3)の+1.3ppのビジョン言語バックボーン(FakeVLM)を改良し、ビジョンのみのバックボーン(Effort)に一貫した利得を付与する。
リアルとフェイククラスのリコールは同時に増加し、"予測オールフェイク"アーティファクトを除外する。
四段階のメカニスティック・アカウント(ペア・エジット・ショートカット・ブロッキング、難易度転送、CLIP前保存、拡散圏共有スペクトルの弱さ)は、なぜ単一インペーター(FLUX.1-Fill)のトレーニングを複数世代で行うのかを説明する。
再現性を促進するため、受け入れに応じてコードを公開します。
関連論文リスト
- Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - Contrast to Detect: Dynamic Graph Contrastive Regularization for Unsupervised Anomaly Detection in Multivariate Time Series [24.192601578775186]
構造進化を抑圧するのではなく,学習信号に変換する,教師なしのフレームワークであるContrastADを提案する。
5つの実世界のベンチマークで、ContrastADは3つのデータセットでF1の平均値とAUCの最高値に達した。
論文 参考訳(メタデータ) (2026-05-22T15:18:53Z) - Contrastive Multi-Modal Hypergraph Reasoning for 3D Crowd Mesh Recovery [12.116457701406047]
実世界のインタラクション分析において,多人数の3D再構成が重要である。
現在のアプローチは、本質的に幾何学的なガイダンスが欠如している単一モダリティ入力に依存している。
コントラスト型マルチモーダルハイパーグラフ推論により, 群集再建のための意味的, 幾何学的, ポーズ的手がかりの相乗化を行う。
論文 参考訳(メタデータ) (2026-04-01T09:39:01Z) - Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination [60.197429875410286]
大規模言語モデルにおける視覚と幻覚の対立的脆弱性は、伝統的に別の問題と見なされている。
損失誘起状態下でのニューラル不確実性原理(NUP)の定式化により, ほぼバウンド状態においては, さらなる圧縮は感度分散の増大を伴うことが判明した。
視覚では、高度に結合したコンポーネントをマスキングすることで、コストのかかる敵の訓練なしに堅牢性を向上させる。
言語では、任意の応答トークンを生成する前に、同じプレフィルステージプローブが幻覚リスクを検出する。
論文 参考訳(メタデータ) (2026-03-20T02:07:10Z) - Towards Robust DeepFake Detection under Unstable Face Sequences: Adaptive Sparse Graph Embedding with Order-Free Representation and Explicit Laplacian Spectral Prior [12.202765237400143]
本稿では,Laplacian-Regularized Graph Convolutional Network (LR-GCN)を提案する。
LR-GCNは、高度のグローバル・ローカル・ディスラプションの下で、最先端の性能とロバスト性を大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T12:31:07Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - A Generically Contrastive Spatiotemporal Representation Enhancement for 3D Skeleton Action Recognition [10.403751563214113]
本稿では, 比較時空間表現拡張(CSRE)フレームワークを提案する。
具体的には、その表現を空間的特徴と時間的特徴に分解し、微細な動きパターンを探索する。
潜伏したデータ分布を明示的に活用するために、コントラスト学習に注意的特徴を用いて、クロスシーケンスセマンティックリレーションをモデル化する。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。