論文の概要: AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16211v1
- Date: Thu, 22 May 2025 04:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.034533
- Title: AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
- Title(参考訳): AudioTrust: 大規模オーディオモデルの多面的信頼性のベンチマーク
- Authors: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li,
- Abstract要約: 我々は,AudioTrustを紹介した。Audio Large Language Models (ALLMs)のために設計された,最初の多面的信頼性評価フレームワークとベンチマークである。
AudioTrustは、公正性、幻覚、安全性、プライバシ、堅牢性、認証の6つの重要な側面にわたる評価を促進する。
評価のために、ベンチマークは、9つの音響特性評価指標を慎重に設計し、大規模自動パイプラインを用いて、モデル出力の客観的かつスケーラブルなスコアリングを行う。
- 参考スコア(独自算出の注目度): 61.41699719944815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement and expanding applications of Audio Large Language Models (ALLMs) demand a rigorous understanding of their trustworthiness. However, systematic research on evaluating these models, particularly concerning risks unique to the audio modality, remains largely unexplored. Existing evaluation frameworks primarily focus on the text modality or address only a restricted set of safety dimensions, failing to adequately account for the unique characteristics and application scenarios inherent to the audio modality. We introduce AudioTrust-the first multifaceted trustworthiness evaluation framework and benchmark specifically designed for ALLMs. AudioTrust facilitates assessments across six key dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. To comprehensively evaluate these dimensions, AudioTrust is structured around 18 distinct experimental setups. Its core is a meticulously constructed dataset of over 4,420 audio/text samples, drawn from real-world scenarios (e.g., daily conversations, emergency calls, voice assistant interactions), specifically designed to probe the multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully designs 9 audio-specific evaluation metrics, and we employ a large-scale automated pipeline for objective and scalable scoring of model outputs. Experimental results reveal the trustworthiness boundaries and limitations of current state-of-the-art open-source and closed-source ALLMs when confronted with various high-risk audio scenarios, offering valuable insights for the secure and trustworthy deployment of future audio models. Our platform and benchmark are available at https://github.com/JusperLee/AudioTrust.
- Abstract(参考訳): オーディオ大言語モデル(ALLM)の急速な進歩と応用は、その信頼性を厳格に理解することを要求している。
しかしながら、これらのモデルを評価するための体系的な研究、特に音響モダリティに特有のリスクについて、ほとんど未解明のままである。
既存の評価フレームワークは、主にテキストのモダリティや、オーディオのモダリティに固有のユニークな特徴やアプリケーションシナリオを適切に説明できないような、制限された安全次元のセットのみに焦点をあてている。
本稿では,ALMに特化して設計された,最初の多面的信頼性評価フレームワークであるAudioTrustを紹介する。
AudioTrustは、公正性、幻覚、安全性、プライバシー、堅牢性、認証の6つの重要な側面で評価を促進する。
これらの次元を総合的に評価するために、AudioTrustは18の異なる実験装置で構成されている。
その中核は、4,420以上のオーディオ/テキストサンプルからなる細心の注意を払って構築されたデータセットで、現実世界のシナリオ(日々の会話、緊急電話、音声アシスタントのインタラクションなど)から抽出され、特にALLMの多面的信頼性を調査するために設計された。
評価のために、ベンチマークは、9つの音響特性評価指標を慎重に設計し、大規模自動パイプラインを用いて、モデル出力の客観的かつスケーラブルなスコアリングを行う。
実験結果は、様々なリスクの高いオーディオシナリオに直面した現在の最先端のオープンソースおよびクローズドソースALLMの信頼性境界と限界を明らかにし、将来のオーディオモデルのセキュアで信頼性の高いデプロイのための貴重な洞察を提供する。
私たちのプラットフォームとベンチマークはhttps://github.com/JusperLee/AudioTrust.comで公開されています。
関連論文リスト
- AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。