Fugu-MT 論文翻訳(概要): Localizing and Editing Knowledge in Large Audio-Language Models

論文の概要: Localizing and Editing Knowledge in Large Audio-Language Models

arxiv url: http://arxiv.org/abs/2603.14343v1
Date: Sun, 15 Mar 2026 12:24:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.761352
Title: Localizing and Editing Knowledge in Large Audio-Language Models
Title（参考訳）: 大規模オーディオ言語モデルにおける知識のローカライズと編集
Authors: Sung Kyun Chung, Jiaheng Dong, Qiuchi Hu, Gongping Huang, Hong Jia, Ting Dang,
Abstract要約: LALM(Large Audio-Language Models)は、音声理解において高い性能を示し、事実情報にアクセスするための自然なインタフェースとなっている。既存のモデル編集手法は、テキストのみのLLMで事実をローカライズし、更新するが、連続した音声表現は考慮しない。 LALMにおける知識ローカライズと編集のための最初の音声ベンチマークを構築し,音声認識による位置対応フレームワークを提案する。
参考スコア（独自算出の注目度）: 14.31283636633993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Audio-Language Models (LALMs) have shown strong performance in speech understanding, making speech a natural interface for accessing factual information. Yet they are trained on static corpora and may encode incorrect facts. Existing model editing methods localize and update facts in text-only LLMs, but do not account for continuous speech representations, or where knowledge is stored across acoustic or language modules, or their cross-modal module. We construct the first audio benchmark for knowledge localization and editing in LALMs and propose a speech-driven locate-then-edit framework. First, we use speech-aware causal tracing to localize layers and modules that support factual retrieval and then apply editing at identified sites. Experiments show that factual knowledge is jointly encoded in audio and text modules, and that audio editing yields more effective updates than text editing or fine-tuning, enabling fine-grained knowledge control in speech AI systems.
Abstract（参考訳）: LALM(Large Audio-Language Models)は、音声理解において高い性能を示し、事実情報にアクセスするための自然なインタフェースとなっている。しかし、それらは静的コーパスで訓練され、誤った事実をエンコードする可能性がある。既存のモデル編集手法は、テキストのみのLLMで事実をローカライズし、更新するが、連続的な音声表現や、アコースティックモジュールや言語モジュール、あるいはそれらのクロスモーダルモジュールに知識が格納されている場所を考慮しない。 LALMにおける知識ローカライズと編集のための最初の音声ベンチマークを構築し,音声認識による位置対応フレームワークを提案する。まず、音声認識による因果追跡を用いて、実際の検索をサポートするレイヤやモジュールをローカライズし、識別されたサイトで編集を適用する。実験により、事実知識は音声とテキストモジュールで共同で符号化され、音声編集はテキスト編集や微調整よりも効果的な更新をもたらし、音声AIシステムにおけるきめ細かい知識制御を可能にすることが示された。

論文の概要: Localizing and Editing Knowledge in Large Audio-Language Models

関連論文リスト