論文の概要: Generalizable Prompt Tuning for Audio-Language Models via Semantic Expansion
- arxiv url: http://arxiv.org/abs/2601.20867v1
- Date: Tue, 06 Jan 2026 12:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.573061
- Title: Generalizable Prompt Tuning for Audio-Language Models via Semantic Expansion
- Title(参考訳): 意味的拡張による音声言語モデルの一般化可能なプロンプトチューニング
- Authors: Jaehyuk Jang, Wonjun Lee, Kangwook Ko, Changick Kim,
- Abstract要約: 音声言語モデル(ALM)における即時チューニングのためのSemantically Expanded Prompt Tuning (SEPT)を提案する。
SEPTは、大きな言語モデルによって生成されるセマンティックな隣人を組み込むことで、迅速な埋め込み空間を正規化する。
大規模な実験により、SEPTは複数のプロンプトチューニングベースラインにまたがる一般化性能を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 32.60365302637783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt tuning has achieved remarkable progress in vision-language models (VLMs) and is recently being adopted for audio-language models (ALMs). However, its generalization ability in ALMs remains largely underexplored. We observe that conventional prompt tuning for ALMs also suffers from the Base-New Tradeoff, and we identify that this issue stems from the disrupted semantic structure of the embedding space. To address this issue, we propose Semantically Expanded Prompt Tuning (SEPT)-a plug-and-play framework that explicitly regularizes the prompt embedding space by incorporating semantic neighbors generated by large language models. SEPT introduces a novel semantic expansion loss with margin constraints that promote intra-class compactness and inter-class separability, thereby enhancing the semantic structure of the prompt embedding space. For comprehensive evaluation, we establish the first benchmark setup for prompt generalization in ALMs, covering both base-to-new generalization and cross-dataset transferability. Extensive experiments demonstrate that SEPT consistently improves generalization performance across multiple prompt tuning baselines, while maintaining computational cost during inference. Codes are available in https://github.com/jhyukjang/SEPT.
- Abstract(参考訳): プロンプトチューニングは視覚言語モデル(VLM)において顕著な進歩を遂げており、近年では音声言語モデル(ALM)にも採用されている。
しかし、ALMの一般化能力はいまだに未解明である。
我々は,従来のALMのプロンプトチューニングもベース・ニュートレードオフに悩まされていることを観察し,この問題は埋め込み空間の破壊的意味構造に起因することを確認した。
この問題に対処するために,大規模な言語モデルによって生成されたセマンティックな隣り合わせを組み込むことで,迅速な埋め込み空間を明示的に正規化する,SEPT(Semantically Expanded Prompt Tuning)のプラグイン・アンド・プレイフレームワークを提案する。
SEPTは、クラス内コンパクト性とクラス間分離性を促進し、即時埋め込み空間のセマンティック構造を高めるために、マージン制約を伴う新しいセマンティック展開損失を導入する。
包括的評価のために,我々はALMにおいて,ベース・ツー・ニューな一般化とクロス・データセットの転送性の両方を網羅した,迅速な一般化のための最初のベンチマーク設定を確立する。
広範囲な実験により、SEPTは推論中に計算コストを抑えつつ、複数のプロンプトチューニングベースラインをまたいだ一般化性能を一貫して改善することを示した。
コードはhttps://github.com/jhyukjang/SEPTで公開されている。
関連論文リスト
- STELLA: Guiding Large Language Models for Time Series Forecasting with Semantic Abstractions [4.169671705130711]
構造的補足情報や補足情報をマイニングし注入するフレームワークSTELLAを提案する。
StELLAは、入力系列をトレンド、季節性、残留成分に分解する動的セマンティック抽象化機構を採用している。
8つのベンチマークデータセットの実験により、STELLAは長期および短期予測において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-12-04T14:56:36Z) - GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models [34.002791706686345]
視覚的およびテキスト的ソフトプロンプトチューニングは、下流タスクにおける視覚言語モデル(VLM)の適応性を向上させることができる。
既存の手法では、手作りプロンプトとソフトプロンプトのギャップを規則化することで、この効果を緩和しようとする。
本稿では,ビデオタスクにおけるV-Lモデルの性能を最適化するプラグイン・アンド・プレイ・カップリング・プロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T05:36:47Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network [17.91342898415867]
既存のATFL手法は、細かいアノテーションを使って効率的なネットワークを訓練することに依存している。
そこで本稿では,ローカライズ性能を高めるために,協調学習と自己超越的手法を取り入れたプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
提案したLOCOは3つの公開ベンチマークでSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-03T17:57:57Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。