論文の概要: Adaptive Forensic Feature Refinement via Intrinsic Importance Perception
- arxiv url: http://arxiv.org/abs/2604.16879v1
- Date: Sat, 18 Apr 2026 07:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.212244
- Title: Adaptive Forensic Feature Refinement via Intrinsic Importance Perception
- Title(参考訳): 内在的重要度知覚による適応的法医学的特徴再構成
- Authors: Jiazhen Yang, Junjun Zheng, Kejia Chen, Xiangheng Kong, Jie Lei, Zunlei Feng, Bingde Hu, Yang Gao,
- Abstract要約: 合成画像検出が直面する主な課題は、未知の発生源への分配一般化である。
視覚基礎モデル(VFM)は、大規模画像テキストアライメント事前学習により、リッチな視覚的先行情報を取得する。
本研究は,本質的な重要性認識を中心としたSIDフレームワークであるI2Pを提案する。
- 参考スコア(独自算出の注目度): 23.33573871779309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of generative models and multimodal content editing technologies, the key challenge faced by synthetic image detection (SID) lies in cross-distribution generalization to unknown generation sources. In recent years, visual foundation models (VFM), which acquire rich visual priors through large scale image-text alignment pretraining, have become a promising technical route for improving the generalization ability of SID. However, existing VFM-based methods remain relatively coarse-grained in their adaptation strategies. They typically either directly use the final layer representations of VFM or simply fuse multi layer features, lacking explicit modeling of the optimal representational hierarchy for transferable forgery cues. Meanwhile, although directly fine-tuning VFM can enhance task adaptation, it may also damage the cross-modal pretrained structure that supports open-set generalization. To address this task specific tension, we reformulate VFM adaptation for SID as a joint optimization problem: it is necessary both to identify the critical representational layer that is more suitable for carrying forgery discriminative information and to constrain the disturbance caused by task knowledge injection to the pretrained structure. Based on this, we propose I2P, an SID framework centered on intrinsic importance perception. I2P first adaptively identifies the critical layer representations that are most discriminative for SID, and then constrains task-driven parameter updates within a low sensitivity parameter subspace, thereby improving task specificity while preserving the transferable structure of pretrained representations as much as possible.
- Abstract(参考訳): 生成モデルとマルチモーダルコンテンツ編集技術の急速な発展に伴い、合成画像検出(SID)が直面する重要な課題は、未知の発生源へのクロスディストリビューションの一般化にある。
近年,視覚基礎モデル (VFM) は, 大規模画像テキストアライメント事前学習により, SIDの一般化能力向上のための有望な技術ルートとなっている。
しかしながら、既存のVFMベースの手法は、適応戦略において比較的粗い粒度を保っている。
彼らは通常、VFMの最終層表現を直接利用するか、あるいは単に複数の層の特徴を融合させるかのいずれかであり、転送可能なフォージェリーキューのための最適な表現階層の明示的なモデリングを欠いている。
一方、直接調整されたVFMはタスク適応を向上させることができるが、オープンセットの一般化をサポートするクロスモーダル事前訓練された構造を損なう可能性がある。
このタスク固有の緊張に対処するために、我々は、SIDに対するVFM適応を共同最適化問題として、偽識別情報を伝達するのにより適した重要な表現層を識別し、予め訓練された構造にタスク知識を注入することによる障害を抑えることが必要である。
そこで本研究では,本質的な重要性認識を中心としたSIDフレームワークであるI2Pを提案する。
I2Pは、まず、SIDに対して最も識別しやすい臨界層表現を適応的に識別し、次に、低感度パラメータ部分空間内でタスク駆動パラメータ更新を制約し、事前訓練された表現の転送可能な構造を可能な限り保ちながらタスク特異性を改善する。
関連論文リスト
- Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception [8.774658029766988]
FlowAdaptは最適な輸送理論に基づくパラメータ効率のフレームワークである。
冗長サンプルを選択的にフィルタするWasserstein Greedy Smpling戦略を導入する。
プログレッシブ・ナレッジ・トランスファーモジュールは圧縮された初期表現を後段に注入するように設計されている。
論文 参考訳(メタデータ) (2026-02-12T04:36:50Z) - Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - Set Pivot Learning: Redefining Generalized Segmentation with Vision Foundation Models [15.321114178936554]
本稿では,ビジョンファウンデーションモデル(VFM)に基づくドメイン一般化(DG)を再定義するパラダイムシフトであるSet Pivot Learningの概念を紹介する。
従来のDGは、トレーニング中にターゲットドメインがアクセスできないと仮定するが、VFMの出現により、この仮定は不明確で時代遅れである。
VFMに基づく新しいドメインマイグレーションタスクであるSet Pivot Learning (SPL)を提案する。
論文 参考訳(メタデータ) (2025-08-03T04:20:35Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval [15.503629941274621]
本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。
RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
論文 参考訳(メタデータ) (2025-05-22T14:59:30Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。