論文の概要: ICAS: Detecting Training Data from Autoregressive Image Generative Models
- arxiv url: http://arxiv.org/abs/2507.05068v1
- Date: Mon, 07 Jul 2025 14:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.464485
- Title: ICAS: Detecting Training Data from Autoregressive Image Generative Models
- Title(参考訳): ICAS:自己回帰画像生成モデルからトレーニングデータを検出する
- Authors: Hongyao Yu, Yixiang Qiu, Yiheng Yang, Hao Fang, Tianqu Zhuang, Jiaxin Hong, Bin Chen, Hao Wu, Shu-Tao Xia,
- Abstract要約: トレーニングデータ検出は、モデルトレーニングにおける不正なデータ使用を識別するための重要なタスクとして登場した。
我々はこの領域に会員推定を適用した最初の研究を行う。
我々の手法は、様々なデータ変換の下で強い堅牢性と一般化を示す。
- 参考スコア(独自算出の注目度): 38.1625974271413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive image generation has witnessed rapid advancements, with prominent models such as scale-wise visual auto-regression pushing the boundaries of visual synthesis. However, these developments also raise significant concerns regarding data privacy and copyright. In response, training data detection has emerged as a critical task for identifying unauthorized data usage in model training. To better understand the vulnerability of autoregressive image generative models to such detection, we conduct the first study applying membership inference to this domain. Our approach comprises two key components: implicit classification and an adaptive score aggregation strategy. First, we compute the implicit token-wise classification score within the query image. Then we propose an adaptive score aggregation strategy to acquire a final score, which places greater emphasis on the tokens with lower scores. A higher final score indicates that the sample is more likely to be involved in the training set. To validate the effectiveness of our method, we adapt existing detection algorithms originally designed for LLMs to visual autoregressive models. Extensive experiments demonstrate the superiority of our method in both class-conditional and text-to-image scenarios. Moreover, our approach exhibits strong robustness and generalization under various data transformations. Furthermore, sufficient experiments suggest two novel key findings: (1) A linear scaling law on membership inference, exposing the vulnerability of large foundation models. (2) Training data from scale-wise visual autoregressive models is easier to detect than other autoregressive paradigms.Our code is available at https://github.com/Chrisqcwx/ImageAR-MIA.
- Abstract(参考訳): 自己回帰画像生成は、視覚合成の境界を推し進めるスケールワイドな視覚的自己回帰のような顕著なモデルで、急速に進歩している。
しかし、これらの発展はデータプライバシと著作権に関する重要な懸念も引き起こす。
これに対し、モデルトレーニングにおける不正なデータ使用を識別するための重要なタスクとして、トレーニングデータ検出が登場した。
このような検出に対する自己回帰画像生成モデルの脆弱性をよりよく理解するために、この領域にメンバーシップ推論を適用した最初の研究を行う。
提案手法は,暗黙的分類と適応的スコアアグリゲーション戦略という2つの重要な要素から構成される。
まず,問合せ画像内の暗黙的なトークン単位の分類スコアを計算する。
そこで本研究では,より低いスコアを持つトークンに重きを置く最終スコアを取得するための適応スコア収集戦略を提案する。
最終的なスコアは、サンプルがトレーニングセットに関与しやすいことを示している。
提案手法の有効性を検証するため,LLM用に設計された既存の検出アルゴリズムを視覚的自己回帰モデルに適用する。
大規模な実験は、クラス条件とテキスト・ツー・イメージのシナリオにおいて、我々の手法の優位性を実証している。
さらに,本手法は,様々なデータ変換の下で強い堅牢性と一般化を示す。
さらに, 十分な実験により, 1) 会員推定の線形スケーリング法則により, 大規模基盤モデルの脆弱性を明らかにすることが示唆された。
2) 大規模視覚的自己回帰モデルからのトレーニングデータは,他の自己回帰パラダイムよりも検出が容易であり,我々のコードはhttps://github.com/Chrisqcwx/ImageAR-MIAで公開されている。
関連論文リスト
- QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning [38.24779287568123]
現在のデバイアス技術は、画像とテキストの間の優れた関係を捉えられない。
偏見研究における入力関係の程度について、事前の研究は行われていない。
本稿では,世代ベースの自己教師型学習戦略を取り入れた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-04T10:38:28Z) - Few-shot Algorithm Assurance [11.924406021826606]
深層学習モデルは 画像の歪みに弱い
画像歪み下のモデル保証は分類タスクである。
条件付きレベルセット推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-28T21:11:55Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Importance of Disjoint Sampling in Conventional and Transformer Models for Hyperspectral Image Classification [2.1223532600703385]
本稿では、ハイパースペクトル画像分類(HSIC)タスク上でSOTAモデルをトレーニングするための革新的な不整合サンプリング手法を提案する。
重なりのないトレーニング,検証,テストデータを分離することにより,提案手法は,トレーニングや検証中に露出していないピクセルをどの程度正確に分類できるかを,より公平に評価することができる。
この厳密な手法は、SOTAモデルの発展と、ハイパースペクトルセンサーを用いた大規模陸地マッピングへの実際の応用に欠かせない。
論文 参考訳(メタデータ) (2024-04-23T11:40:52Z) - FACTUAL: A Novel Framework for Contrastive Learning Based Robust SAR Image Classification [10.911464455072391]
FACTUALは、逆行訓練と堅牢なSAR分類のためのコントラストラーニングフレームワークである。
本モデルでは, 洗浄試料の99.7%, 摂動試料の89.6%の精度が得られた。
論文 参考訳(メタデータ) (2024-04-04T06:20:22Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Few-shot Image Classification based on Gradual Machine Learning [6.935034849731568]
少ないショット画像分類は、ラベル付きサンプルのみを使用してラベル付きイメージを正確に分類することを目的としている。
段階的機械学習(GML)の非i.dパラダイムに基づく新しいアプローチを提案する。
提案手法は精度でSOTAの性能を1-5%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-07-28T12:30:41Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。