論文の概要: Guess the Unified Model: How Much Can We Recover from Generated Images?
- arxiv url: http://arxiv.org/abs/2605.25254v1
- Date: Sun, 24 May 2026 20:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.045834
- Title: Guess the Unified Model: How Much Can We Recover from Generated Images?
- Title(参考訳): 統一されたモデル:生成した画像からどのくらいの時間で回収できるのか?
- Authors: Jasin Cekinmez, Ryo Mitsuhashi, Addison J. Wu, Yida Yin,
- Abstract要約: 7つの統一モデルにより生成された画像を用いて、汚職、ドメイン、プロンプト言語間の分離性を検討する。
モデル属性は,モデル毎の約20K画像でほぼ完全な精度を実現するため,極めて実現可能であることを示す。
- 参考スコア(独自算出の注目度): 3.248768581088291
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With unified model-generated images now widespread online, attributing their model of origin offers a path toward transparency and deeper insight into the characteristic behaviors of individual models. Prior work has explored provenance in LLM-generated text, diffusion model images, and datasets, but the separability of unified model-generated images remains an underexplored area. We address this gap by examining separability across corruption, domains, and prompt languages using images generated by seven unified models. We show that model attribution is highly feasible as our model achieves near-perfect accuracy with around 20K images per model. Corruptions and structural perturbations have only a modest effect on attribution performance, and cross-domain generalization reveals that semantic content contributes to separability but is not the dominant signal. Finally, we observe that for most models, prompt language attribution is around chance levels, suggesting minimal language-specific visual signatures. These findings highlight consistent model-specific visual characteristics in unified models outputs and open new directions for tracing and auditing generative image pipelines.
- Abstract(参考訳): 統一されたモデル生成イメージがオンラインに広まり、それらのモデルの起源は、個々のモデルの特徴的振る舞いに対する透明性と深い洞察をもたらす。
これまでの研究は、LLM生成テキスト、拡散モデル画像、データセットの出所を探求してきたが、統一されたモデル生成画像の分離性は未発見領域のままである。
7つの統一モデルによって生成された画像を用いて、汚職、ドメイン、プロンプト言語間の分離性を調べることで、このギャップに対処する。
モデル属性は,モデル毎の約20K画像でほぼ完全な精度を実現するため,極めて実現可能であることを示す。
崩壊と構造的摂動は帰属性能にわずかに影響を及ぼすだけであり、ドメイン間一般化は意味的内容が分離性に寄与するが、支配的な信号ではないことを示す。
最後に、ほとんどのモデルでは、アクシデント言語の帰属はチャンスレベルに近づき、最小限の言語固有の視覚的シグネチャが示唆される。
これらの知見は、統一されたモデル出力における一貫したモデル固有の視覚特性と、生成的画像パイプラインのトレースと監査のための新しい方向を明らかにする。
関連論文リスト
- GMAIL: Generative Modality Alignment for generated Image Learning [51.071351994330605]
本稿では,生成画像の識別のための新しいフレームワークGMAILを提案する。
我々のフレームワークは様々な視覚言語モデルに容易に組み込むことができ、広範囲にわたる実験を通してその有効性を示す。
論文 参考訳(メタデータ) (2026-02-17T05:40:25Z) - Causal Fingerprints of AI Generative Models [18.85839181425287]
完全なモデル指紋は、画像の出現とモデルトレースの因果関係を反映すべきである、と我々は主張する。
本稿では、画像固有のコンテンツやスタイルから切り離す因果分離フレームワークを提案する。
提案手法は, モデル属性における既存手法よりも優れており, 偽造検出, モデル著作権追跡, アイデンティティ保護の強力な可能性を示している。
論文 参考訳(メタデータ) (2025-09-18T20:33:27Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability [5.865936619867771]
生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。
我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
論文 参考訳(メタデータ) (2023-03-31T09:11:26Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。