論文の概要: AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
- arxiv url: http://arxiv.org/abs/2509.01787v1
- Date: Mon, 01 Sep 2025 21:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.843462
- Title: AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions
- Title(参考訳): AHAMask: 命令なしの大規模オーディオ言語モデルの信頼性の高いタスク仕様
- Authors: Yiwei Guo, Bohan Li, Hankun Wang, Zhihan Li, Shuai Wang, Xie Chen, Kai Yu,
- Abstract要約: 我々はAHAMaskを提案し、LALMのデコーダのみのLLMバックボーンに注意を隠蔽する。
これらのマスクは、LLMバックボーン内のアテンションヘッド数に等しいトレーニング可能なパラメータの数で、LALMのトレーニングによって効率良く得られる。
実験により、このような選択的アテンションヘッドマスクを適用すると、命令を使用するよりも同等またはそれ以上の性能が得られることが示された。
- 参考スコア(独自算出の注目度): 28.49382666240754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current large audio language models (LALMs) extend text large language models (LLMs) with generic acoustic understanding abilities, they usually suffer from instruction sensitivity, where different instructions of the same intention can yield drastically different outcomes. In this work, we propose AHAMask, where we simply mask some of the attention heads in the decoder-only LLM backbone of LALMs, to trigger specific acoustic task functionalities without instructions. These masks are efficiently obtained by training on an LALM, with the number of trainable parameters equal to the attention head count in its LLM backbone. We show by experiments that applying such selective attention head masks achieves comparable or even better performance than using instructions, either on single or composite tasks. Besides achieving reliable acoustic task specification for LALMs, this also reveals that LALMs exhibit certain "functional pathways" in their attention heads.
- Abstract(参考訳): 現在の大きな音声言語モデル(LALM)は、テキスト大言語モデル(LLM)を一般的な音響理解能力で拡張するが、通常は命令感度に悩まされ、同じ意図の異なる命令が劇的に異なる結果をもたらす。
本研究では,LALMの復号器のみのLLMバックボーンにアテンションヘッドのいくつかを隠蔽し,命令なしで特定の音響タスク機能を起動するAHAMaskを提案する。
これらのマスクは、LLMバックボーン内のアテンションヘッド数に等しいトレーニング可能なパラメータの数で、LALMのトレーニングによって効率良く得られる。
このような選択的なアテンションヘッドマスクの適用は、単一タスクや複合タスクにおいて、命令を使用するよりも、同等またはそれ以上の性能が得られることを示す。
LALMの信頼性の高い音響タスク仕様の達成に加えて、LALMが注意の頭にある種の「機能的経路」を示すことも明らかにした。
関連論文リスト
- Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Intermittent Semi-working Mask: A New Masking Paradigm for LLMs [13.271151693864114]
マルチターン対話は人間と大規模言語モデル(LLM)の鍵となる対話手法である
これらの問題に対処するために,ISM (Intermittent Semi-working Mask) と呼ばれる新しいマスキング手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T13:22:01Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing [55.25224913110965]
Expert-Token-Routing は、メタ LLM の語彙内の特別な専門家トークンとして、専門家 LLM を表現している。
既存の命令データセットから専門家のLSMの暗黙の専門知識を学ぶのをサポートする。
また、ユーザの視点から詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
論文 参考訳(メタデータ) (2024-03-25T15:17:05Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Customising General Large Language Models for Specialised Emotion
Recognition Tasks [24.822342337306363]
言語感情認識において,大規模言語モデル (LLM) がどのように機能するかを検討する。
具体的には、公開され、広く使われているLLM -- Chat General Language Modelを例示します。
我々は2つの異なるモーダル適応手法、すなわちディープ・プロンプト・チューニングと低ランク適応を用いてターゲットにカスタマイズする。
実験結果から, 適応型LLMは, 他の最先端の深層モデルよりも容易に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-22T08:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。