論文の概要: AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16211v3
- Date: Tue, 30 Sep 2025 14:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.993819
- Title: AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
- Title(参考訳): AudioTrust: 大規模オーディオモデルの多面的信頼性のベンチマーク
- Authors: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Shun Zhang, Xingjian Du, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Gelei Deng, Haoyang Li, Yiming Li, Xiaobin Zhuang, Tianlong Chen, Qingsong Wen, Tianwei Zhang, Yang Liu, Haibo Hu, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, Wenyuan Xu, XiaoFeng Wang, Wei Dong, Xinfeng Li,
- Abstract要約: オーディオ大言語モデル(ALLMs)は広く採用されているが、信頼性は未定である。
音色,アクセント,背景雑音などの非意味的音響的手がかりから生じるALMの有意な信頼性リスクを同定した。
本稿では,AudioTrustを提案する。
- 参考スコア(独自算出の注目度): 125.44235244336623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Large Language Models (ALLMs) have gained widespread adoption, yet their trustworthiness remains underexplored. Existing evaluation frameworks, designed primarily for text, fail to address unique vulnerabilities introduced by audio's acoustic properties. We identify significant trustworthiness risks in ALLMs arising from non-semantic acoustic cues, including timbre, accent, and background noise, which can manipulate model behavior. We propose AudioTrust, a comprehensive framework for systematic evaluation of ALLM trustworthiness across audio-specific risks. AudioTrust encompasses six key dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. The framework implements 26 distinct sub-tasks using a curated dataset of over 4,420 audio samples from real-world scenarios, including daily conversations, emergency calls, and voice assistant interactions. We conduct comprehensive evaluations across 18 experimental configurations using human-validated automated pipelines. Our evaluation of 14 state-of-the-art open-source and closed-source ALLMs reveals significant limitations when confronted with diverse high-risk audio scenarios, providing insights for secure deployment of audio models. Code and data are available at https://github.com/JusperLee/AudioTrust.
- Abstract(参考訳): オーディオ大言語モデル(ALLMs)は広く採用されているが、信頼性は未定である。
既存の評価フレームワークは、主にテキスト用に設計されており、オーディオの音響特性によってもたらされる固有の脆弱性に対処できない。
音色,アクセント,背景雑音などの非意味的音響的手がかりから生じるALMの信頼性リスクは,モデル動作を操作できる。
本稿では,AudioTrustを提案する。AudioTrustは,AudioTrustの信頼性を総合的に評価するためのフレームワークである。
AudioTrustには、公正性、幻覚、安全性、プライバシー、堅牢性、認証の6つの重要な側面が含まれている。
このフレームワークは、日々の会話、緊急電話、音声アシスタントのインタラクションなど、現実世界のシナリオから4,420以上のオーディオサンプルを収集したデータセットを使用して、26の異なるサブタスクを実装している。
人為的な自動パイプラインを用いた18の実験的な構成を網羅的に評価する。
最先端の14のオープンソースおよびクローズドソースALLMを評価した結果,多様なハイリスクオーディオシナリオに直面する場合の重大な制限が明らかになり,オーディオモデルのセキュアな展開に対する洞察が得られた。
コードとデータはhttps://github.com/JusperLee/AudioTrust.comで公開されている。
関連論文リスト
- Adopting Whisper for Confidence Estimation [0.2737398629157413]
本稿では,ASRモデル自体(Whisper)を利用して単語レベルの信頼度を生成する手法を提案する。
我々の実験は、サイズが強いCEMベースラインに匹敵する微調整のWhisper-tinyモデルが、ドメイン内のデータセットで同様の性能を達成し、8つのドメイン外のデータセットでCEMベースラインを上回ることを実証した。
論文 参考訳(メタデータ) (2025-02-19T05:45:28Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。