Fugu-MT 論文翻訳(概要): No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

論文の概要: No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

arxiv url: http://arxiv.org/abs/2602.22689v1
Date: Thu, 26 Feb 2026 07:07:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.567372
Title: No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings
Title（参考訳）: キャプションなし、問題なし:モデルフィッティング埋め込みによるキャプションなしメンバーシップ推論
Authors: Joonsung Jeon, Woo Jae Kim, Suhyeon Ha, Sooel Son, Sung-Eui Yoon,
Abstract要約: 対象モデルの生成多様体に明示的に過度に適合した合成条件入力を構成する,キャプションフリーなMIAフレームワークであるMoFitを提案する。 MoFitは、VLMの以前のベースラインよりも一貫して優れており、キャプションに依存したメソッドと競合するパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 27.60095238548641
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Latent diffusion models have achieved remarkable success in high-fidelity text-to-image generation, but their tendency to memorize training data raises critical privacy and intellectual property concerns. Membership inference attacks (MIAs) provide a principled way to audit such memorization by determining whether a given sample was included in training. However, existing approaches assume access to ground-truth captions. This assumption fails in realistic scenarios where only images are available and their textual annotations remain undisclosed, rendering prior methods ineffective when substituted with vision-language model (VLM) captions. In this work, we propose MoFit, a caption-free MIA framework that constructs synthetic conditioning inputs that are explicitly overfitted to the target model's generative manifold. Given a query image, MoFit proceeds in two stages: (i) model-fitted surrogate optimization, where a perturbation applied to the image is optimized to construct a surrogate in regions of the model's unconditional prior learned from member samples, and (ii) surrogate-driven embedding extraction, where a model-fitted embedding is derived from the surrogate and then used as a mismatched condition for the query image. This embedding amplifies conditional loss responses for member samples while leaving hold-outs relatively less affected, thereby enhancing separability in the absence of ground-truth captions. Our comprehensive experiments across multiple datasets and diffusion models demonstrate that MoFit consistently outperforms prior VLM-conditioned baselines and achieves performance competitive with caption-dependent methods.
Abstract（参考訳）: 遅延拡散モデルは高忠実度テキスト・画像生成において顕著な成功を収めてきたが、トレーニングデータを記憶する傾向は、重要なプライバシーと知的財産権の懸念を引き起こす。メンバーシップ推論攻撃(MIA)は、トレーニングに与えられたサンプルが含まれているかどうかを判断することで、そのような記憶を監査する原則的な方法を提供する。しかし、既存のアプローチでは根本字幕へのアクセスが想定されている。この仮定は、画像のみが利用可能であり、それらのテキストアノテーションが未開示のままである現実的なシナリオでは失敗し、視覚言語モデル(VLM)キャプションに代えて前のメソッドが有効ではない。本研究では, 対象モデルの生成多様体に明示的に過度に適合した合成条件入力を構築する, キャプションフリーなMIAフレームワークであるMoFitを提案する。クエリーイメージが与えられたら、MoFitは次の2段階に進む。一画像に施した摂動を最適化し、部材サンプルから学習したモデルの非条件前の領域における代理を構築するモデル適合代理最適化 (2)サロゲート駆動型埋め込み抽出において,サロゲートからモデル適合型埋め込みを導出し,クエリ画像のミスマッチ条件として用いる。この埋め込みは、部材試料の条件的損失応答を、比較的影響の少ない状態で増幅し、接地トラスキャプションの欠如による分離性を高める。複数のデータセットおよび拡散モデルにわたる総合的な実験により、MoFitはVLM条件以前のベースラインを一貫して上回り、キャプションに依存した手法と競合する性能を発揮することを示した。

関連論文リスト

Noise as a Probe: Membership Inference Attacks on Diffusion Models Leveraging Initial Noise [51.179816451161635]
拡散モデルは画像生成において顕著な進歩を遂げているが、そのデプロイの増加はプライバシに関する深刻な懸念を引き起こす。広範に使われているノイズスケジュールは、画像のセマンティック情報を完全に排除することができない。本稿では,初期雑音に意味情報を注入し,モデル生成結果を解析してメンバーシップを推定する,シンプルで効果的なメンバーシップ推論攻撃を提案する。
論文参考訳（メタデータ） (2026-01-29T12:29:01Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。 FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-10-14T20:50:30Z)
LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [38.700993166492495]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文参考訳（メタデータ） (2025-07-01T14:25:09Z)
Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文参考訳（メタデータ） (2024-07-21T13:26:30Z)
Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy [36.156856772794065]
テキスト・画像拡散モデルにおける条件付きオーバーフィッティング現象を提案する。提案手法は, 各種データおよびデータセットのスケールにおいて, 従来手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-05-23T17:09:51Z)
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-04-16T17:47:16Z)
Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文参考訳（メタデータ） (2024-03-13T12:52:37Z)
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文参考訳（メタデータ） (2023-12-20T08:05:57Z)
Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文参考訳（メタデータ） (2023-08-28T08:47:06Z)
The Role of Data Curation in Image Captioning [26.61662352061468]
本論文は, サンプルの総数を増やすことなく, データセット中の難しいサンプルを積極的にキュレートすることによって, この方向性に寄与する。 BLIPとBEiT-3モデルを用いたFlickr30KとCOCOデータセットの実験は、これらのキュレーション手法が実際に改善された画像キャプションモデルをもたらすことを示した。
論文参考訳（メタデータ） (2023-05-05T15:16:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。