論文の概要: Transferable and Principled Efficiency for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2404.07448v2
- Date: Tue, 4 Jun 2024 03:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:19:03.498899
- Title: Transferable and Principled Efficiency for Open-Vocabulary Segmentation
- Title(参考訳): 開語彙セグメンテーションにおける伝達性と原理的効率性
- Authors: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei,
- Abstract要約: 事前学習された基礎視覚言語計算モデルの最近の成功は、Open-Vocabulary (OVS)を可能にする。
このアプローチでは,1) 背骨のモデルサイズが大きいこと,2) 微調整時にコストがかかること,の2つの課題に対して,計算上のオーバーヘッドが発生する。
本稿では,大規模な視覚言語基盤モデルに基づいて,従来のOVSに匹敵する,あるいはさらに優れた性能を実現することを目的とする。
- 参考スコア(独自算出の注目度): 82.66423763561697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans
- Abstract(参考訳): 事前学習された基礎視覚言語モデルの最近の成功は、Open-Vocabulary Segmentation (OVS)を可能にする。
有望な性能にもかかわらず、このアプローチは2つの課題に対して重い計算オーバーヘッドをもたらす。
1) 背骨の大型モデルサイズ
2)微調整の際にはコストがかかる。
これらの課題は、現実世界のシナリオにおいて、このOVS戦略が広く適用可能で手頃な価格であることを妨げる。
モデル圧縮や効率的な微調整といった従来の手法はこれらの課題に対処できるが、しばしばヒューリスティックに頼っている。
つまり、それらのソリューションは簡単に移行できず、コストがかかる異なるモデルで再トレーニングする必要がなくなる。
効率的なOVSの文脈では、トレーニングコストを下げるより小さなモデルを利用することで、大きなビジョン言語基盤モデルに基づいて、OVSが以前のOVSと同等かそれ以上の性能を達成することを目標としています。
コア戦略は、我々の効率を原則化し、従って、さらなるカスタマイズなしに、あるOVSフレームワークから他のフレームワークにシームレスに転送できるようにすることです。
多様なOVSベンチマークに関する総合的な実験では、セグメント化精度と計算コストのトレードオフが従来よりも優れていることが示されている。
私たちのコードはhttps://github.com/Xujxyang/OpenTransで利用可能です。
関連論文リスト
- Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - ProgFed: Effective, Communication, and Computation Efficient Federated
Learning by Progressive Training [78.44473677588887]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
これは本質的に、最終モデルの強力な性能を維持しながら、計算と双方向通信コストを削減します。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。