論文の概要: Text-Guided Multi-Scale Frequency Representation Adaptation
- arxiv url: http://arxiv.org/abs/2605.08181v1
- Date: Tue, 05 May 2026 09:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.434494
- Title: Text-Guided Multi-Scale Frequency Representation Adaptation
- Title(参考訳): テキストガイドによるマルチスケール周波数適応
- Authors: Weicai Yan, Xinhua Ma, Wang Lin, Tao Jin,
- Abstract要約: FreqAdapterはテキスト情報を統合し、周波数領域における信号のマルチスケール微調整を行う。
CLIPやLLaVAを含むマルチモーダルモデルの実験は、FreqAdapterがパフォーマンスと効率の両方を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 21.0677399767855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning methods introduce a small number of training parameters, enabling pre-trained models to adapt rapidly to new data distributions. While these methods have shown promising results, they exhibit notable limitations. First, most existing methods operate in the signal space domain, which results in substantial information redundancy. Second, most existing methods utilize fixed prompts or adaptation layers, failing to fully account for the multi-scale characteristics of signals. To address these challenges, we propose the Multi-Scale Frequency Adapter (FreqAdapter), which integrates textual information and performs multi-scale fine-tuning of signals in the frequency domain. Additionally, we introduce a multi-scale adaptation strategy to optimize receptive fields across different frequency ranges, further enhancing the model's representational capacity. Extensive experiments on multimodal models, including CLIP and LLaVA, demonstrate that FreqAdapter significantly improves both performance and efficiency. FreqAdapter improves performance with minimal cost and fast convergence within one epoch. Code is available at https://github.com/Kelvin-ywc/FreqAdapter.
- Abstract(参考訳): パラメータ効率の良い微調整手法は、少数のトレーニングパラメータを導入し、事前訓練されたモデルが新しいデータ分布に迅速に適応できるようにする。
これらの手法は有望な結果を示したが、顕著な限界を示した。
まず、既存のほとんどの手法は信号空間領域で動作し、実質的な情報冗長性をもたらす。
第二に、既存のほとんどの手法は固定プロンプトや適応層を利用しており、信号のマルチスケール特性を完全に説明できない。
これらの課題に対処するために、テキスト情報を統合し、周波数領域における信号のマルチスケール微調整を行うマルチスケール周波数適応器(FreqAdapter)を提案する。
さらに、異なる周波数範囲にわたる受容場を最適化するマルチスケール適応手法を導入し、モデルの表現能力をさらに向上する。
CLIPやLLaVAといったマルチモーダルモデルに関する大規模な実験は、FreqAdapterがパフォーマンスと効率の両方を大幅に改善することを示した。
FreqAdapterは、最小限のコストと1つのエポック内での高速収束でパフォーマンスを向上させる。
コードはhttps://github.com/Kelvin-ywc/FreqAdapter.comで入手できる。
関連論文リスト
- Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering [11.805761578275627]
本稿では,実行時間とパラメータの効率を優先するRSAdapterという新しい手法を提案する。
RSAdapterの有効性を示すため、3つの異なるRS-VQAデータセットを用いて大規模な実験を行った。
論文 参考訳(メタデータ) (2023-10-19T19:32:27Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。