論文の概要: Resurfacing Paralinguistic Awareness in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2603.11947v1
- Date: Thu, 12 Mar 2026 13:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.125069
- Title: Resurfacing Paralinguistic Awareness in Large Audio Language Models
- Title(参考訳): 大規模音声モデルにおけるパラ言語的認識の再検討
- Authors: Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: LALM(Large Audio Language Models)は、人間と音声との相互作用を拡張している。
LALMは通常そのようなパラ言語的な手がかりを無視し、クエリの内容のみに基づいて応答する。
本稿では,パラ言語対応機能を持つLALMに則って,パラ言語対応ファインチューニング(PE-FT)プロトコルを提案する。
- 参考スコア(独自算出の注目度): 64.48666302711108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio Language Models (LALMs) have expanded the interaction with human to speech modality, which introduces great interactive potential, due to the paralinguistic cues implicitly indicating the user context. However, building on the current content-centred paradigm, LALMs usually neglect such paralinguistic cues and respond solely based on query content. In this work, to resurface the paralinguistic awareness in LALMs, we introduce five diverse layer-wise analyses to jointly identify paralinguistic layers and semantic understanding layers. Based on these insights, we propose a paralinguistic-enhanced fine-tuning (PE-FT) protocol accordingly to equip LALMs with paralinguistic-aware capabilities, including (1) selective-layer fine-tuning, and (2) an auxiliary dual-level classification head. Our experiments demonstrate that PE-FT protocol efficiently and effectively resurfaces the paralinguistic awareness, even surpassing the performance of the all-layer fine-tuning strategy.
- Abstract(参考訳): LALM(Large Audio Language Models)は、ユーザコンテキストを暗黙的に示すパラ言語的手がかりが原因で、人間と音声のモダリティの相互作用を拡大した。
しかしながら、現在のコンテンツ中心のパラダイムに基づいて構築されるLALMは通常、そのようなパラ言語的なキューを無視し、クエリコンテンツのみに基づいて応答する。
本研究では、LALMにおけるパラ言語的認識を再検討するために、パラ言語的層と意味理解層を共同で識別する5つの多層分析を導入する。
これらの知見に基づいて,(1)選択層ファインチューニング,(2)補助二重レベル分類ヘッドを含むパラ言語機能を持つLALMに準じて,パラ言語的ファインチューニング(PE-FT)プロトコルを提案する。
実験により,PE-FTプロトコルは,全層微調整法の性能を超越して,パラ言語的認識を効果的かつ効果的に再認識することを示した。
関連論文リスト
- Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis [54.53152524778821]
言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
論文 参考訳(メタデータ) (2025-09-28T09:04:40Z) - Language-Specific Layer Matters: Efficient Multilingual Enhancement for Large Vision-Language Models [60.39744129890118]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する能力を示す。
本研究では,LVLMの多言語理解能力と浅い層における言語特異的ニューロン活性化の関連性を明らかにする。
精密LAnguage-Specific 層ファインチューニングによるLVLMの多言語化を実現する学習レシピ PLAST を紹介する。
論文 参考訳(メタデータ) (2025-08-25T18:15:25Z) - The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文 参考訳(メタデータ) (2025-05-24T04:24:59Z) - Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。
この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。
NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文 参考訳(メタデータ) (2025-05-10T11:37:15Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本稿では,パラメータ効率の優れた微調整法に基づく効率的な選択的層干渉法を提案する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。