論文の概要: AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16211v2
- Date: Tue, 01 Jul 2025 13:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:40.084075
- Title: AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models
- Title(参考訳): AudioTrust: 大規模オーディオモデルの多面的信頼性のベンチマーク
- Authors: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, Xiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, Xiaobin Zhuang, Yang Liu, Haibo Hu, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li,
- Abstract要約: 我々は,AudioTrustを紹介した。Audio Large Language Models (ALLMs)のために設計された,最初の多面的信頼性評価フレームワークとベンチマークである。
AudioTrustは、公正性、幻覚、安全性、プライバシ、堅牢性、認証の6つの重要な側面にわたる評価を促進する。
評価のために、ベンチマークは、9つの音響特性評価指標を慎重に設計し、大規模自動パイプラインを用いて、モデル出力の客観的かつスケーラブルなスコアリングを行う。
- 参考スコア(独自算出の注目度): 59.263938700476565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement and expanding applications of Audio Large Language Models (ALLMs) demand a rigorous understanding of their trustworthiness. However, systematic research on evaluating these models, particularly concerning risks unique to the audio modality, remains largely unexplored. Existing evaluation frameworks primarily focus on the text modality or address only a restricted set of safety dimensions, failing to adequately account for the unique characteristics and application scenarios inherent to the audio modality. We introduce AudioTrust-the first multifaceted trustworthiness evaluation framework and benchmark specifically designed for ALLMs. AudioTrust facilitates assessments across six key dimensions: fairness, hallucination, safety, privacy, robustness, and authentication. To comprehensively evaluate these dimensions, AudioTrust is structured around 18 distinct experimental setups. Its core is a meticulously constructed dataset of over 4,420 audio/text samples, drawn from real-world scenarios (e.g., daily conversations, emergency calls, voice assistant interactions), specifically designed to probe the multifaceted trustworthiness of ALLMs. For assessment, the benchmark carefully designs 9 audio-specific evaluation metrics, and we employ a large-scale automated pipeline for objective and scalable scoring of model outputs. Experimental results reveal the trustworthiness boundaries and limitations of current state-of-the-art open-source and closed-source ALLMs when confronted with various high-risk audio scenarios, offering valuable insights for the secure and trustworthy deployment of future audio models. Our platform and benchmark are available at https://github.com/JusperLee/AudioTrust.
- Abstract(参考訳): オーディオ大言語モデル(ALLM)の急速な進歩と応用は、その信頼性を厳格に理解することを要求している。
しかしながら、これらのモデルを評価するための体系的な研究、特に音響モダリティに特有のリスクについて、ほとんど未解明のままである。
既存の評価フレームワークは、主にテキストのモダリティや、オーディオのモダリティに固有のユニークな特徴やアプリケーションシナリオを適切に説明できないような、制限された安全次元のセットのみに焦点をあてている。
本稿では,ALMに特化して設計された,最初の多面的信頼性評価フレームワークであるAudioTrustを紹介する。
AudioTrustは、公正性、幻覚、安全性、プライバシー、堅牢性、認証の6つの重要な側面で評価を促進する。
これらの次元を総合的に評価するために、AudioTrustは18の異なる実験装置で構成されている。
その中核は、4,420以上のオーディオ/テキストサンプルからなる細心の注意を払って構築されたデータセットで、現実世界のシナリオ(日々の会話、緊急電話、音声アシスタントのインタラクションなど)から抽出され、特にALLMの多面的信頼性を調査するために設計された。
評価のために、ベンチマークは、9つの音響特性評価指標を慎重に設計し、大規模自動パイプラインを用いて、モデル出力の客観的かつスケーラブルなスコアリングを行う。
実験結果は、様々なリスクの高いオーディオシナリオに直面した現在の最先端のオープンソースおよびクローズドソースALLMの信頼性境界と限界を明らかにし、将来のオーディオモデルのセキュアで信頼性の高いデプロイのための貴重な洞察を提供する。
私たちのプラットフォームとベンチマークはhttps://github.com/JusperLee/AudioTrust.comで公開されています。
関連論文リスト
- SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation [52.468945848774844]
本稿では,人間の介入なしに音声の分離を評価できる自動システムの必要性に対処する。
提案した評価指標であるSAM Audio Judge (SAJ) は, マルチモーダルな細粒度参照自由度尺度である。
SAJは3つのオーディオドメイン(音声、音楽、一般的な音声イベント)と3つのインプット(テキスト、視覚、スパン)をサポートし、4つの異なる評価次元をカバーする。
論文 参考訳(メタデータ) (2026-01-27T15:29:02Z) - Backdoor Attacks Against Speech Language Models [63.07317091368079]
本研究は,音声認識モデルに対する音声バックドア攻撃に関する最初の体系的研究である。
4つの音声エンコーダと3つのデータセットにまたがってその効果を実証し、4つのタスクをカバーした。
汚染された事前訓練エンコーダの脅威を軽減できる微調整型防御法を提案する。
論文 参考訳(メタデータ) (2025-10-01T17:45:04Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers [40.4026420070893]
HIN(Hidden in the Noise)は、微妙でオーディオ特有の機能を活用するために設計された、新しいバックドアアタックフレームワークである。
HINは、時間的ダイナミクスの変更やスペクトル調整されたノイズの戦略的注入など、生のオーディオ波形に音響的修正を適用している。
音声機能に基づくトリガに対するALLMロバスト性を評価するため、AudioSafeベンチマークを開発し、9つの異なるリスクタイプを評価する。
論文 参考訳(メタデータ) (2025-08-04T08:15:16Z) - Adopting Whisper for Confidence Estimation [0.2737398629157413]
本稿では,ASRモデル自体(Whisper)を利用して単語レベルの信頼度を生成する手法を提案する。
我々の実験は、サイズが強いCEMベースラインに匹敵する微調整のWhisper-tinyモデルが、ドメイン内のデータセットで同様の性能を達成し、8つのドメイン外のデータセットでCEMベースラインを上回ることを実証した。
論文 参考訳(メタデータ) (2025-02-19T05:45:28Z) - Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。
本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。
この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文 参考訳(メタデータ) (2025-02-10T16:51:11Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。