論文の概要: Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.01208v1
- Date: Mon, 03 Mar 2025 06:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:55.928733
- Title: Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける不注意なプライバシ記憶について
- Authors: Tianjie Ju, Yi Hua, Hao Fei, Zhenyu Shao, Yubin Zheng, Haodong Zhao, Mong-Li Lee, Wynne Hsu, Zhuosheng Zhang, Gongshen Liu,
- Abstract要約: タスク非関連なプライベートコンテンツが、ミニバッチトレーニングのダイナミクスにより、下流の目標といかに素早い相関関係を持つかを示す。
実験の結果,MLLMはタスク非関連透かしを埋め込んだ部分的なミニバッチ設定において,異なるトレーニング行動を示すことがわかった。
- 参考スコア(独自算出の注目度): 39.28048627284308
- License:
- Abstract: Multi-Modal Large Language Models (MLLMs) have exhibited remarkable performance on various vision-language tasks such as Visual Question Answering (VQA). Despite accumulating evidence of privacy concerns associated with task-relevant content, it remains unclear whether MLLMs inadvertently memorize private content that is entirely irrelevant to the training tasks. In this paper, we investigate how randomly generated task-irrelevant private content can become spuriously correlated with downstream objectives due to partial mini-batch training dynamics, thus causing inadvertent memorization. Concretely, we randomly generate task-irrelevant watermarks into VQA fine-tuning images at varying probabilities and propose a novel probing framework to determine whether MLLMs have inadvertently encoded such content. Our experiments reveal that MLLMs exhibit notably different training behaviors in partial mini-batch settings with task-irrelevant watermarks embedded. Furthermore, through layer-wise probing, we demonstrate that MLLMs trigger distinct representational patterns when encountering previously seen task-irrelevant knowledge, even if this knowledge does not influence their output during prompting. Our code is available at https://github.com/illusionhi/ProbingPrivacy.
- Abstract(参考訳): MLLM (Multi-Modal Large Language Models) は視覚質問応答 (VQA) などの視覚言語タスクにおいて顕著な性能を示した。
タスク関連コンテンツに関連するプライバシー上の懸念の証拠が蓄積されているにもかかわらず、MLLMがトレーニングタスクに全く関係のないプライベートコンテンツを不注意に記憶しているかどうかは不明だ。
本稿では,タスク非関連なプライベートコンテンツが,部分的なミニバッチトレーニングのダイナミクスによって下流の目的とどのように関係し,不注意な記憶を引き起こすかを検討する。
具体的には、タスク非関連な透かしを様々な確率でVQA微調整画像にランダムに生成し、MLLMが意図せずその内容を符号化したかどうかを判断する新しい探索フレームワークを提案する。
実験の結果,MLLMはタスク非関連透かしを埋め込んだ部分的なミニバッチ設定において,異なるトレーニング行動を示すことがわかった。
さらに, 階層的探索を通じて, MLLMが従来見てきた課題関連知識に遭遇する際, たとえこの知識がプロンプト中にその出力に影響しないとしても, 表現パターンを異にすることを示す。
私たちのコードはhttps://github.com/illusionhi/ProbingPrivacy.comで利用可能です。
関連論文リスト
- Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Beyond Memorization: The Challenge of Random Memory Access in Language Models [56.525691003233554]
生成言語モデル(LM)がそのメモリに逐次的またはランダムにアクセスできるかどうかを検討する。
本手法により, LMのランダムメモリアクセス性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-12T16:42:44Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。