論文の概要: The Man Behind the Sound: Demystifying Audio Private Attribute Profiling via Multimodal Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2507.10016v2
- Date: Wed, 20 Aug 2025 07:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 23:29:43.435601
- Title: The Man Behind the Sound: Demystifying Audio Private Attribute Profiling via Multimodal Large Language Model Agents
- Title(参考訳): 音の裏側:マルチモーダルな大言語モデルエージェントによるオーディオ・プライベート・属性・プロファイリングの謎化
- Authors: Lixu Wang, Kaixiang Yao, Xinfeng Li, Dong Yang, Haoyang Li, Xiaofeng Wang, Wei Dong,
- Abstract要約: 本研究は,マルチモーダル大言語モデル(MLLM)に関連する新たなプライバシーリスクを明らかにする。
オーディオ・プライベート・属性・プロファイリングと呼ぶ手法であるオーディオ・データから機密性の高い個人属性を推測する能力は重大な脅威となる。
音声言語モデル(ALM)と大規模言語モデル(LLM)の相補的な長所を利用して推論能力を向上させるハイブリッドマルチエージェントフレームワークであるGiftsを提案する。
- 参考スコア(独自算出の注目度): 21.736748922886555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our research uncovers a novel privacy risk associated with multimodal large language models (MLLMs): the ability to infer sensitive personal attributes from audio data -- a technique we term audio private attribute profiling. This capability poses a significant threat, as audio can be covertly captured without direct interaction or visibility. Moreover, compared to images and text, audio carries unique characteristics, such as tone and pitch, which can be exploited for more detailed profiling. However, two key challenges exist in understanding MLLM-employed private attribute profiling from audio: (1) the lack of audio benchmark datasets with sensitive attribute annotations and (2) the limited ability of current MLLMs to infer such attributes directly from audio. To address these challenges, we introduce AP^2, an audio benchmark dataset that consists of two subsets collected and composed from real-world data, and both are annotated with sensitive attribute labels. Additionally, we propose Gifts, a hybrid multi-agent framework that leverages the complementary strengths of audio-language models (ALMs) and large language models (LLMs) to enhance inference capabilities. Gifts employs an LLM to guide the ALM in inferring sensitive attributes, then forensically analyzes and consolidates the ALM's inferences, overcoming severe hallucinations of existing ALMs in generating long-context responses. Our evaluations demonstrate that Gifts significantly outperforms baseline approaches in inferring sensitive attributes. Finally, we investigate model-level and data-level defense strategies to mitigate the risks of audio private attribute profiling. Our work validates the feasibility of audio-based privacy attacks using MLLMs, highlighting the need for robust defenses, and provides a dataset and framework to facilitate future research.
- Abstract(参考訳): 私たちの研究は、マルチモーダルな大規模言語モデル(MLLM)に関連する、新たなプライバシーリスクを明らかにしました。
直接の対話や可視性なしに音声を隠蔽することができるため、この機能は重大な脅威となる。
さらに、画像やテキストと比較して、音声にはトーンやピッチといった独特の特徴があり、より詳細なプロファイリングに利用することができる。
しかし、音声からMLLMにインスパイアされた個人属性のプロファイリングを理解するには、2つの大きな課題がある:(1)機密属性アノテーションを持つオーディオベンチマークデータセットの欠如、(2)そのような属性を直接オーディオから推測する現在のMLLMの限られた能力。
これらの課題に対処するために、実世界のデータから収集・構成された2つのサブセットからなるオーディオベンチマークデータセットであるAP^2を導入する。
さらに、音声言語モデル(ALM)と大規模言語モデル(LLM)の相補的強みを活用して推論能力を向上させるハイブリッドマルチエージェントフレームワークであるGiftsを提案する。
ギフトはALMを誘導するためにLSMを使用し、機密属性を推測した後、ALMの推論を法則的に分析し、統合し、長いコンテキスト応答を生成するために既存のALMの深刻な幻覚を克服する。
評価の結果,ギフトは感度特性の推測において,ベースラインアプローチよりも有意に優れていた。
最後に,オーディオ・プライベート・属性・プロファイリングのリスクを軽減するため,モデルレベルおよびデータレベル・ディフェンス戦略について検討する。
本研究は,MLLMを用いた音声によるプライバシ攻撃の実現可能性を検証するとともに,堅牢な防御の必要性を強調し,将来の研究を促進するためのデータセットとフレームワークを提供する。
関連論文リスト
- Can We Infer Confidential Properties of Training Data from LLMs? [24.330349002990438]
大規模言語モデル(LLM)のプロパティ推論を評価するベンチマークタスクであるPropInferを紹介する。
ChatDoctorデータセット上に構築されたベンチマークには、さまざまなプロパティタイプとタスク設定が含まれています。
本稿では,単語周波数信号を利用したプロンプトベース生成攻撃とシャドウモデル攻撃の2つを提案する。
論文 参考訳(メタデータ) (2025-06-12T05:42:06Z) - AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models [44.99833362998488]
本研究は、LALMが聴覚特性を内在的に知覚し、認識する方法について、初めて詳細な分析を行ったものである。
3つの最先端のLALMに語彙予測を適用することで、属性情報が層やトークンの位置間でどのように進化していくかを追跡する。
この結果から聴覚属性処理の知見が得られ,今後の改善への道が開けた。
論文 参考訳(メタデータ) (2025-06-05T15:22:47Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling [3.304341919932024]
ドメイン定義文を活用する新しい大規模言語モデル(LLM)ベースのアプローチを導入する。
提案手法は,解釈可能な自然言語ユーザプロファイルを生成し,広範囲なユーザデータをスケールに集約する。
実験の結果,本手法は最先端のLCM法および従来手法よりも9.8%優れていた。
論文 参考訳(メタデータ) (2025-05-09T16:51:24Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。