論文の概要: Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2307.11545v1
- Date: Fri, 21 Jul 2023 12:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 12:33:17.906478
- Title: Bridging Vision and Language Encoders: Parameter-Efficient Tuning for
Referring Image Segmentation
- Title(参考訳): ブリッジングビジョンと言語エンコーダ:画像セグメント参照のためのパラメータ効率の高いチューニング
- Authors: Zunnan Xu, Zhihong Chen, Yong Zhang, Yibing Song, Xiang Wan, Guanbin
Li
- Abstract要約: 画像セグメンテーションの参照における効率的なチューニング問題について検討する。
クロスモーダル情報交換を容易にするBridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
- 参考スコア(独自算出の注目度): 72.27914940012423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter Efficient Tuning (PET) has gained attention for reducing the number
of parameters while maintaining performance and providing better hardware
resource savings, but few studies investigate dense prediction tasks and
interaction between modalities. In this paper, we do an investigation of
efficient tuning problems on referring image segmentation. We propose a novel
adapter called Bridger to facilitate cross-modal information exchange and
inject task-specific information into the pre-trained model. We also design a
lightweight decoder for image segmentation. Our approach achieves comparable or
superior performance with only 1.61\% to 3.38\% backbone parameter updates,
evaluated on challenging benchmarks. The code is available at
\url{https://github.com/kkakkkka/ETRIS}.
- Abstract(参考訳): パラメータ効率調整 (PET) は, 性能を維持しつつパラメータ数を減らし, ハードウェア資源の節約を図っているが, 密集した予測タスクやモダリティ間の相互作用についてはほとんど研究されていない。
本稿では,画像分割参照における効率的なチューニング問題について検討する。
クロスモーダルな情報交換を容易にし,タスク固有の情報を事前学習モデルに注入する,Bridgerと呼ばれる新しいアダプタを提案する。
画像分割のための軽量デコーダも設計する。
提案手法は,1.61 %から3.38 %までのバックボーンパラメータの更新で同等あるいは優れた性能を達成する。
コードは \url{https://github.com/kkakka/etris} で入手できる。
関連論文リスト
- Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - SPPNet: A Single-Point Prompt Network for Nuclei Image Segmentation [6.149725843029721]
核画像分割のためのシングルポイントプロンプトネットワークを提案する。
オリジナル画像エンコーダを軽量な視覚変換器に置き換える。
提案モデルはMoNuSeg-2018データセットで評価される。
論文 参考訳(メタデータ) (2023-08-23T16:13:58Z) - Ray-Patch: An Efficient Querying for Light Field Transformers [10.859910783551937]
ターゲットビューに暗黙の表現をデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchクエリを提案する。
我々のRay-Patchデコーディングは計算フットプリントを減らし、従来のモデルに比べて1桁の推論速度を増大させる。
論文 参考訳(メタデータ) (2023-05-16T16:03:27Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Evaluation of Dirichlet Process Gaussian Mixtures for Segmentation on
Noisy Hyperspectral Images [1.4721615285883425]
本稿では、ディリクレ過程のガウス混合モデルを用いて、ハイパースペクトル画像のセグメント化手法を提案し、評価する。
我々のモデルは、与えられたデータセットのスケールの最適な値とクラスタの数を見つけるまでパラメータを自己制御することができる。
その結果,最適なパラメータを手動で探索することの負担を回避しながら,ハイパースペクトル画像中の物体を見つける方法の可能性が示された。
論文 参考訳(メタデータ) (2022-03-05T21:44:52Z) - ACORT: A Compact Object Relation Transformer for Parameter Efficient
Image Captioning [13.659124860884912]
画像キャプションモデル削減のための3つの方法を提案する。
提案したACORTモデルはベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。
その結果、ACORTモデルはベースラインやSOTAアプローチと競合することを示した。
論文 参考訳(メタデータ) (2022-02-11T05:10:28Z) - Few-Shot Segmentation via Cycle-Consistent Transformer [74.49307213431952]
本稿では,サポートとターゲット画像間の画素ワイドな関係を利用して,数ショットのセマンティックセマンティックセグメンテーション作業を容易にすることに焦点を当てる。
本稿では, 有害なサポート機能を除去するために, 新規なサイクル一貫性アテンション機構を提案する。
提案したCyCTRは,従来の最先端手法と比較して著しく改善されている。
論文 参考訳(メタデータ) (2021-06-04T07:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。