論文の概要: AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2506.05140v1
- Date: Thu, 05 Jun 2025 15:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.784266
- Title: AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models
- Title(参考訳): AudioLens:大規模オーディオ言語モデルによる聴覚属性の知覚
- Authors: Chih-Kai Yang, Neo Ho, Yi-Jyun Lee, Hung-yi Lee,
- Abstract要約: 本研究は、LALMが聴覚特性を内在的に知覚し、認識する方法について、初めて詳細な分析を行ったものである。
3つの最先端のLALMに語彙予測を適用することで、属性情報が層やトークンの位置間でどのように進化していくかを追跡する。
この結果から聴覚属性処理の知見が得られ,今後の改善への道が開けた。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the internal mechanisms of large audio-language models (LALMs) is crucial for interpreting their behavior and improving performance. This work presents the first in-depth analysis of how LALMs internally perceive and recognize auditory attributes. By applying vocabulary projection on three state-of-the-art LALMs, we track how attribute information evolves across layers and token positions. We find that attribute information generally decreases with layer depth when recognition fails, and that resolving attributes at earlier layers correlates with better accuracy. Moreover, LALMs heavily rely on querying auditory inputs for predicting attributes instead of aggregating necessary information in hidden states at attribute-mentioning positions. Based on our findings, we demonstrate a method to enhance LALMs. Our results offer insights into auditory attribute processing, paving the way for future improvements.
- Abstract(参考訳): 大規模音声言語モデル(LALM)の内部メカニズムの理解は,その振る舞いの解釈と性能向上に不可欠である。
本研究は、LALMが聴覚特性を内在的に知覚し、認識する方法について、初めて詳細な分析を行ったものである。
3つの最先端のLALMに語彙予測を適用することで、属性情報が層やトークンの位置間でどのように進化していくかを追跡する。
認識に失敗した場合,属性情報は一般に層深度とともに減少し,それ以前の層での属性の解消はより精度良く相関することがわかった。
さらに、LALMは属性生成位置の隠れ状態において必要な情報を集約するのではなく、属性を予測するために聴覚入力のクエリに大きく依存している。
そこで本研究では,LALMを改良する手法を実証した。
この結果から聴覚属性処理の知見が得られ,今後の改善への道が開けた。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Understanding Zero-shot Rare Word Recognition Improvements Through LLM Integration [0.8702432681310401]
本稿では,大規模言語モデル(LLM)と自動音声認識(ASR)システムの統合について検討する。
分析の結果,LLMはレアワード誤り率(R-WER)の改善に大きく寄与していることが明らかとなった。
広範にわたるアブレーション研究を通じて,LLMの言語能力と音声エンコーダ出力の整合化におけるアダプタ統合の重要性を強調した。
論文 参考訳(メタデータ) (2025-02-22T08:30:38Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - The Representation and Recall of Interwoven Structured Knowledge in LLMs: A Geometric and Layered Analysis [0.0]
大規模言語モデル(LLM)はトランスフォーマー層にまたがる多関連属性を表現し、リコールする。
中間層は、重なり合う空間における関連属性を重畳することによって、事実知識を符号化する。
後の層は言語パターンを洗練し 属性表現を段階的に分離します
論文 参考訳(メタデータ) (2025-02-15T18:08:51Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Understanding Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Dissecting Recall of Factual Associations in Auto-Regressive Language
Models [41.71388509750695]
トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。
モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。
本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
論文 参考訳(メタデータ) (2023-04-28T11:26:17Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。