論文の概要: FiMMIA: scaling semantic perturbation-based membership inference across modalities
- arxiv url: http://arxiv.org/abs/2512.02786v1
- Date: Tue, 02 Dec 2025 14:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.905312
- Title: FiMMIA: scaling semantic perturbation-based membership inference across modalities
- Title(参考訳): FiMMIA: 意味摂動に基づくモダリティ間のメンバシップ推定のスケーリング
- Authors: Anton Emelyanov, Sergei Kudriashov, Alena Fenogenova,
- Abstract要約: メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングセットに含まれるかどうかを判定することを目的としている。
提案手法はニューラルネットワークを用いて、摂動入力における対象モデルの振る舞いを分析し、メンバーと非メンバーの分布差をキャプチャする。
- 参考スコア(独自算出の注目度): 1.1076204470866262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership Inference Attacks (MIAs) aim to determine whether a specific data point was included in the training set of a target model. Although there are have been numerous methods developed for detecting data contamination in large language models (LLMs), their performance on multimodal LLMs (MLLMs) falls short due to the instabilities introduced through multimodal component adaptation and possible distribution shifts across multiple inputs. In this work, we investigate multimodal membership inference and address two issues: first, by identifying distribution shifts in the existing datasets, and second, by releasing an extended baseline pipeline to detect them. We also generalize the perturbation-based membership inference methods to MLLMs and release \textbf{FiMMIA} -- a modular \textbf{F}ramework for \textbf{M}ultimodal \textbf{MIA}.\footnote{The source code and framework have been made publicly available under the MIT license via \href{https://github.com/ai-forever/data_leakage_detect}{link}.The video demonstration is available on \href{https://youtu.be/a9L4-H80aSg}{YouTube}.} Our approach trains a neural network to analyze the target model's behavior on perturbed inputs, capturing distributional differences between members and non-members. Comprehensive evaluations on various fine-tuned multimodal models demonstrate the effectiveness of our perturbation-based membership inference attacks in multimodal domains.
- Abstract(参考訳): メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングセットに含まれるかどうかを判定することを目的としている。
大規模言語モデル(LLM)におけるデータ汚染を検出する手法は数多く開発されているが、マルチモーダルなLCM(MLLM)の性能は、マルチモーダルなコンポーネント適応による不安定さや、複数の入力にまたがる分散シフトにより低下している。
本研究では,マルチモーダルなメンバシップ推定について検討し,まず既存のデータセットの分布シフトを同定し,次にベースラインパイプラインを拡張して検出する,という2つの問題に対処する。
また、摂動に基づくメンバシップ推論手法をMLLMに一般化し、 \textbf{M}ultimodal \textbf{MIA} に対するモジュール型 \textbf{F}ramework をリリースする。
https://github.com/ai-forever/data_leakage_detect}{link} を通じて、MITライセンスの下でソースコードとフレームワークが公開されている。
ビデオデモは \href{https://youtu.be/a9L4-H80aSg}{YouTube} で公開されている。
提案手法はニューラルネットワークを用いて、摂動入力における対象モデルの振る舞いを分析し、メンバーと非メンバーの分布差をキャプチャする。
様々な微調整マルチモーダルモデルに対する包括的評価は、多モーダル領域における摂動に基づくメンバシップ推論攻撃の有効性を示す。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - MOSAIC: Multiple Observers Spotting AI Content [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
本研究では,人文テキストから人工的に生成したテキストを自動的に識別する手法を提案する。
種々のジェネレータLSMを用いて実験を行った結果,本手法は各モデルの強度を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - Amortized Bayesian Multilevel Models [9.831471158899644]
マルチレベルモデル(MLM)はベイズワークフローの中心的なビルディングブロックである。
MLMは重要な計算上の課題を生じさせ、しばしばその推定と評価は合理的な時間制約の中で難解である。
シミュレーションに基づく推論の最近の進歩は、深層生成ネットワークを用いた複雑な確率モデルに対処するための有望な解決策を提供する。
マルチレベルモデルの確率的因数分解を利用して、効率的なニューラルネットワークトレーニングと、未知のデータセットに対する後続の即時推論を容易にするニューラルネットワークアーキテクチャのファミリーを探索する。
論文 参考訳(メタデータ) (2024-08-23T17:11:04Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。