論文の概要: Membership Inference Attacks against Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2603.28378v1
- Date: Mon, 30 Mar 2026 12:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.398273
- Title: Membership Inference Attacks against Large Audio Language Models
- Title(参考訳): 大規模音声モデルに対する会員推測攻撃
- Authors: Jia-Kai Dong, Yu-Xiang Lin, Hung-Yi Lee,
- Abstract要約: 大規模音声言語モデル(LALM)のMIA評価について述べる。
テキスト,スペクトル,韻律的特徴に基づくマルチモーダルブラインドベースラインを用いて,一般的な音声データセットがほぼ完璧な列車/テスト分離性を示すことを示す。
以上の結果から, LALM検査の基準基準が確立された。
- 参考スコア(独自算出の注目度): 50.84901010528239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first systematic Membership Inference Attack (MIA) evaluation of Large Audio Language Models (LALMs). As audio encodes non-semantic information, it induces severe train and test distribution shifts and can lead to spurious MIA performance. Using a multi-modal blind baseline based on textual, spectral, and prosodic features, we demonstrate that common speech datasets exhibit near-perfect train/test separability (AUC approximately 1.0) even without model inference, and the standard MIA scores strongly correlate with these blind acoustic artifacts (correlation greater than 0.7). Using this blind baseline, we identify that distribution-matched datasets enable reliable MIA evaluation without distribution shift confounds. We benchmark multiple MIA methods and conduct modality disentanglement experiments on these datasets. The results reveal that LALM memorization is cross-modal, arising only from binding a speaker's vocal identity with its text. These findings establish a principled standard for auditing LALMs beyond spurious correlations.
- Abstract(参考訳): 本稿では,Large Audio Language Models (LALM) のMIA評価について述べる。
音声は非セマンティックな情報を符号化するので、厳しい列車とテストの分配シフトを誘発し、刺激的なMIAパフォーマンスをもたらす可能性がある。
テキスト,スペクトル,韻律的特徴に基づくマルチモーダルブラインドベースラインを用いて,モデル推論を必要とせずに,共通音声データセットがほぼ完全な列車/テスト分離性(AUC約1.0)を示し,標準MIAスコアがこれらのブラインドアコースティックアーティファクト(0.7以上)と強く相関していることを示す。
このブラインドベースラインを用いて、分散マッチングされたデータセットは、分散シフトの相違なく、信頼性の高いMIA評価を可能にする。
我々は、複数のMIA手法をベンチマークし、これらのデータセット上でモダリティ・ディコンタングルメント実験を行う。
その結果、LALM記憶は、話者の音声アイデンティティをテキストに結び付けることでのみ生じるクロスモーダルであることが判明した。
以上の結果から, LALM検査の基準基準が確立された。
関連論文リスト
- Membership Inference for Contrastive Pre-training Models with Text-only PII Queries [8.524434324715857]
UMID(Unimodal Membership Inference Detector)は、テキストのみの監査フレームワークである。
多様なCLIPおよびCLAPアーキテクチャによる実験により、UMIDは以前のMIAよりも有効性と効率を著しく向上することが示された。
論文 参考訳(メタデータ) (2026-03-15T04:53:39Z) - Lost in Modality: Evaluating the Effectiveness of Text-Based Membership Inference Attacks on Large Multimodal Models [3.9448289587779404]
大規模言語モデル(LLM)におけるデータ露出の評価手法として,ログベースメンバシップ推論攻撃(MIA)が広く採用されている。
テキストベースのMIA手法をマルチモーダル設定に拡張する最初の包括的な評価を行う。
論文 参考訳(メタデータ) (2025-12-02T14:11:51Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning [30.308743810639758]
大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T13:46:35Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - RelationMatch: Matching In-batch Relationships for Semi-supervised Learning [11.423755495373907]
半教師付き学習は、少ないラベル付きデータと豊富なラベル付きデータを活用するための重要なアプローチとして登場した。
本稿では, 行列クロスエントロピー(MCE)損失関数を用いて, バッチ内でのリレーショナル一貫性を明示的に強化する新しいSSLフレームワークであるRelationMatchを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。