論文の概要: UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection
- arxiv url: http://arxiv.org/abs/2604.21904v1
- Date: Thu, 23 Apr 2026 17:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.80538
- Title: UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection
- Title(参考訳): UniGenDet: 共進化的画像生成と生成画像検出のための統一的な生成識別フレームワーク
- Authors: Yanran Zhang, Wenzhao Zheng, Yifei Li, Bingyao Yu, Yu Zheng, Lei Chen, Jiwen Lu, Jie Zhou,
- Abstract要約: 共進化画像生成と生成画像検出のための統一生成識別フレームワークUniGenDetを提案する。
タスクギャップを埋めるために,マルチモーダルな共生型自己保持機構と統一的な微調整アルゴリズムを設計する。
提案手法は,複数のデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 68.03391421239583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, significant progress has been made in both image generation and generated image detection. Despite their rapid, yet largely independent, development, these two fields have evolved distinct architectural paradigms: the former predominantly relies on generative networks, while the latter favors discriminative frameworks. A recent trend in both domains is the use of adversarial information to enhance performance, revealing potential for synergy. However, the significant architectural divergence between them presents considerable challenges. Departing from previous approaches, we propose UniGenDet: a Unified generative-discriminative framework for co-evolutionary image Generation and generated image Detection. To bridge the task gap, we design a symbiotic multimodal self-attention mechanism and a unified fine-tuning algorithm. This synergy allows the generation task to improve the interpretability of authenticity identification, while authenticity criteria guide the creation of higher-fidelity images. Furthermore, we introduce a detector-informed generative alignment mechanism to facilitate seamless information exchange. Extensive experiments on multiple datasets demonstrate that our method achieves state-of-the-art performance. Code: \href{https://github.com/Zhangyr2022/UniGenDet}{https://github.com/Zhangyr2022/UniGenDet}.
- Abstract(参考訳): 近年,画像生成と画像検出の両面で大きな進歩を遂げている。
前者は生成的ネットワークに依存し、後者は差別的なフレームワークを好んでいる。
両領域の最近の傾向は、性能を高めるために敵対情報を使用することであり、シナジーの可能性を明らかにしている。
しかし、それらの間の重要なアーキテクチャ上の相違は、かなりの課題を呈している。
従来の手法とは別に,UniGenDetを提案する。UniGenDetは,共進化画像生成と生成画像検出のための統一生成識別フレームワークである。
タスクギャップを埋めるために,共生型マルチモーダル自己認識機構と統合された微調整アルゴリズムを設計する。
このシナジーにより、生成タスクは認証識別の解釈性を向上させるとともに、認証基準は高忠実度画像の作成を導く。
さらに、シームレスな情報交換を容易にするために、検出器インフォームド・ジェネレーション・アライメント機構を導入する。
複数のデータセットに対する大規模な実験により,本手法が最先端の性能を達成することを示す。
コード: \href{https://github.com/Zhangyr2022/UniGenDet}{https://github.com/Zhangyr2022/UniGenDet}
関連論文リスト
- Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。
生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。
本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文 参考訳(メタデータ) (2024-05-16T08:00:55Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。