論文の概要: The Deployment of End-to-End Audio Language Models Should Take into Account the Principle of Least Privilege
- arxiv url: http://arxiv.org/abs/2503.16833v1
- Date: Fri, 21 Mar 2025 04:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:59:01.135578
- Title: The Deployment of End-to-End Audio Language Models Should Take into Account the Principle of Least Privilege
- Title(参考訳): 極秘原理を考慮したエンド・ツー・エンド音声言語モデルの展開
- Authors: Luxi He, Xiangyu Qi, Michel Liao, Inyoung Cheong, Prateek Mittal, Danqi Chen, Peter Henderson,
- Abstract要約: エンドツーエンドの音声言語モデル(Audio LMs)は、別の書き起こしステップに頼るのではなく、音声を直接処理する。
このシフトは、イントネーションや複数の話者の存在などの詳細な情報を保存し、それ以外は転写で失われる。
また、話者アイデンティティーの手がかりや、他の機密性の高い発声特性の誤用など、新たな安全性リスクも導入されている。
- 参考スコア(独自算出の注目度): 50.6597575004019
- License:
- Abstract: We are at a turning point for language models that accept audio input. The latest end-to-end audio language models (Audio LMs) process speech directly instead of relying on a separate transcription step. This shift preserves detailed information, such as intonation or the presence of multiple speakers, that would otherwise be lost in transcription. However, it also introduces new safety risks, including the potential misuse of speaker identity cues and other sensitive vocal attributes, which could have legal implications. In this position paper, we urge a closer examination of how these models are built and deployed. We argue that the principle of least privilege should guide decisions on whether to deploy cascaded or end-to-end models. Specifically, evaluations should assess (1) whether end-to-end modeling is necessary for a given application; and (2), the appropriate scope of information access. Finally, We highlight related gaps in current audio LM benchmarks and identify key open research questions, both technical and policy-related, that must be addressed to enable the responsible deployment of end-to-end Audio LMs.
- Abstract(参考訳): 私たちは音声入力を受け入れる言語モデルの転換点にいる。
最新のエンドツーエンドオーディオ言語モデル(Audio LMs)は、別の書き起こしステップに頼るのではなく、音声を直接処理する。
このシフトは、イントネーションや複数の話者の存在などの詳細な情報を保存し、それ以外は転写で失われる。
しかし、スピーカーアイデンティティーの手がかりや、法的に影響を及ぼす可能性のある他の機密性の高い発声特性の誤用など、新たな安全性リスクも導入されている。
本稿では,これらのモデルの構築と展開方法について,より詳しく検討する。
最小特権の原則は、カスケードモデルやエンドツーエンドモデルのデプロイに関する決定を導くべきだ、と私たちは主張する。
具体的には,(1)アプリケーションにエンド・ツー・エンド・モデリングが必要かどうか,(2)情報アクセスの適切な範囲を評価すべきである。
最後に、現在のオーディオLMベンチマークのギャップを強調し、エンドツーエンドのオーディオLMのデプロイに責任を負うために対処する必要がある技術とポリシーの両方に関して、主要なオープンな研究課題を特定する。
関連論文リスト
- VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for
Low-Resource Languages [14.297371692669545]
ゼロリソースシナリオにおける自動音声認識(ASR)のための教師なし音響モデリング(UAM)
第一の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。
第二の問題は教師なしサブワードモデリング(unsupervised subword modeling)と呼ばれる。
論文 参考訳(メタデータ) (2020-07-29T19:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。