論文の概要: Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2501.08580v1
- Date: Wed, 15 Jan 2025 05:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:30.025699
- Title: Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation
- Title(参考訳): 画像分割参照のための高精細接続型パラメータ効率チューニング
- Authors: Jiaqi Huang, Zunnan Xu, Ting Liu, Yong Liu, Haonan Han, Kehong Yuan, Xiu Li,
- Abstract要約: DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。
我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
- 参考スコア(独自算出の注目度): 30.912818564963512
- License:
- Abstract: In the domain of computer vision, Parameter-Efficient Tuning (PET) is increasingly replacing the traditional paradigm of pre-training followed by full fine-tuning. PET is particularly favored for its effectiveness in large foundation models, as it streamlines transfer learning costs and optimizes hardware utilization. However, the current PET methods are mainly designed for single-modal optimization. While some pioneering studies have undertaken preliminary explorations, they still remain at the level of aligned encoders (e.g., CLIP) and lack exploration of misaligned encoders. These methods show sub-optimal performance with misaligned encoders, as they fail to effectively align the multimodal features during fine-tuning. In this paper, we introduce DETRIS, a parameter-efficient tuning framework designed to enhance low-rank visual feature propagation by establishing dense interconnections between each layer and all preceding layers, which enables effective cross-modal feature interaction and adaptation to misaligned encoders. We also suggest using text adapters to improve textual features. Our simple yet efficient approach greatly surpasses state-of-the-art methods with 0.9% to 1.8% backbone parameter updates, evaluated on challenging benchmarks. Our project is available at \url{https://github.com/jiaqihuang01/DETRIS}.
- Abstract(参考訳): コンピュータビジョンの分野では、パラメータ効率チューニング(PET)が従来の事前学習のパラダイムに取って代わり、さらに完全な微調整が進んでいる。
PETは、転送学習コストを合理化し、ハードウェア利用を最適化するため、大規模な基盤モデルにおいてその有効性に特に好まれる。
しかし、現在のPET法は主に単一モード最適化のために設計されている。
いくつかの先駆的な研究は予備的な調査を行ってきたが、いまだに整列エンコーダ(例えばCLIP)のレベルに留まり、整列エンコーダの探索を欠いている。
これらの手法は、微調整中にマルチモーダルな特徴を効果的に整列できないため、不整合エンコーダによる準最適性能を示す。
本稿では,各層と先行層間の密接な相互接続を確立することで,低ランクな視覚特徴の伝播を促進するために設計されたパラメータ効率のチューニングフレームワークDETRISについて紹介する。
また、テキストアダプタを使ってテキスト機能を改善することも提案する。
我々の単純かつ効率的なアプローチは、挑戦的なベンチマークで評価された、0.9%から1.8%のバックボーンパラメータの更新で最先端のメソッドを大幅に上回っている。
我々のプロジェクトは \url{https://github.com/jiaqihuang01/DETRIS} で利用可能です。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。
本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。
我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文 参考訳(メタデータ) (2024-07-06T09:04:27Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model
Fine-tuning [32.84435258519842]
ゲート機構により,粒度の細かいトークンレベルと粗い層レベルの両方でプレフィックスを調整できる適応型プリフィックスチューニング(APT)を提案する。
SuperGLUEとNERデータセットの実験は、APTの有効性を示している。
論文 参考訳(メタデータ) (2023-05-24T14:51:01Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。