論文の概要: Localizing and Editing Knowledge in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2603.14343v1
- Date: Sun, 15 Mar 2026 12:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.761352
- Title: Localizing and Editing Knowledge in Large Audio-Language Models
- Title(参考訳): 大規模オーディオ言語モデルにおける知識のローカライズと編集
- Authors: Sung Kyun Chung, Jiaheng Dong, Qiuchi Hu, Gongping Huang, Hong Jia, Ting Dang,
- Abstract要約: LALM(Large Audio-Language Models)は、音声理解において高い性能を示し、事実情報にアクセスするための自然なインタフェースとなっている。
既存のモデル編集手法は、テキストのみのLLMで事実をローカライズし、更新するが、連続した音声表現は考慮しない。
LALMにおける知識ローカライズと編集のための最初の音声ベンチマークを構築し,音声認識による位置対応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.31283636633993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have shown strong performance in speech understanding, making speech a natural interface for accessing factual information. Yet they are trained on static corpora and may encode incorrect facts. Existing model editing methods localize and update facts in text-only LLMs, but do not account for continuous speech representations, or where knowledge is stored across acoustic or language modules, or their cross-modal module. We construct the first audio benchmark for knowledge localization and editing in LALMs and propose a speech-driven locate-then-edit framework. First, we use speech-aware causal tracing to localize layers and modules that support factual retrieval and then apply editing at identified sites. Experiments show that factual knowledge is jointly encoded in audio and text modules, and that audio editing yields more effective updates than text editing or fine-tuning, enabling fine-grained knowledge control in speech AI systems.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声理解において高い性能を示し、事実情報にアクセスするための自然なインタフェースとなっている。
しかし、それらは静的コーパスで訓練され、誤った事実をエンコードする可能性がある。
既存のモデル編集手法は、テキストのみのLLMで事実をローカライズし、更新するが、連続的な音声表現や、アコースティックモジュールや言語モジュール、あるいはそれらのクロスモーダルモジュールに知識が格納されている場所を考慮しない。
LALMにおける知識ローカライズと編集のための最初の音声ベンチマークを構築し,音声認識による位置対応フレームワークを提案する。
まず、音声認識による因果追跡を用いて、実際の検索をサポートするレイヤやモジュールをローカライズし、識別されたサイトで編集を適用する。
実験により、事実知識は音声とテキストモジュールで共同で符号化され、音声編集はテキスト編集や微調整よりも効果的な更新をもたらし、音声AIシステムにおけるきめ細かい知識制御を可能にすることが示された。
関連論文リスト
- SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models [96.81401797908835]
SAKEは、大規模オーディオ言語モデルにおける聴覚属性知識の編集に特化して設計された最初のベンチマークである。
我々は,信頼性,汎用性,音声/テキストの局所性,可搬性という4次元の2つのLALMに対して,7つの編集手法をベンチマークした。
結果は、編集とは無関係な属性内知識の保存、マルチモーダル推論への編集の一般化、シーケンシャルな更新の下での編集の維持といった課題を浮き彫りにする。
論文 参考訳(メタデータ) (2025-10-19T16:22:09Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。