Fugu-MT 論文翻訳(概要): Transferable and Principled Efficiency for Open-Vocabulary Segmentation

論文の概要: Transferable and Principled Efficiency for Open-Vocabulary Segmentation

arxiv url: http://arxiv.org/abs/2404.07448v2
Date: Tue, 4 Jun 2024 03:15:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 12:19:03.498899
Title: Transferable and Principled Efficiency for Open-Vocabulary Segmentation
Title（参考訳）: 開語彙セグメンテーションにおける伝達性と原理的効率性
Authors: Jingxuan Xu, Wuyang Chen, Yao Zhao, Yunchao Wei,
Abstract要約: 事前学習された基礎視覚言語計算モデルの最近の成功は、Open-Vocabulary (OVS)を可能にする。このアプローチでは,1) 背骨のモデルサイズが大きいこと,2) 微調整時にコストがかかること,の2つの課題に対して,計算上のオーバーヘッドが発生する。本稿では,大規模な視覚言語基盤モデルに基づいて,従来のOVSに匹敵する,あるいはさらに優れた性能を実現することを目的とする。
参考スコア（独自算出の注目度）: 82.66423763561697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent success of pre-trained foundation vision-language models makes Open-Vocabulary Segmentation (OVS) possible. Despite the promising performance, this approach introduces heavy computational overheads for two challenges: 1) large model sizes of the backbone; 2) expensive costs during the fine-tuning. These challenges hinder this OVS strategy from being widely applicable and affordable in real-world scenarios. Although traditional methods such as model compression and efficient fine-tuning can address these challenges, they often rely on heuristics. This means that their solutions cannot be easily transferred and necessitate re-training on different models, which comes at a cost. In the context of efficient OVS, we target achieving performance that is comparable to or even better than prior OVS works based on large vision-language foundation models, by utilizing smaller models that incur lower training costs. The core strategy is to make our efficiency principled and thus seamlessly transferable from one OVS framework to others without further customization. Comprehensive experiments on diverse OVS benchmarks demonstrate our superior trade-off between segmentation accuracy and computation costs over previous works. Our code is available on https://github.com/Xujxyang/OpenTrans
Abstract（参考訳）: 事前学習された基礎視覚言語モデルの最近の成功は、Open-Vocabulary Segmentation (OVS)を可能にする。有望な性能にもかかわらず、このアプローチは2つの課題に対して重い計算オーバーヘッドをもたらす。 1) 背骨の大型モデルサイズ 2)微調整の際にはコストがかかる。これらの課題は、現実世界のシナリオにおいて、このOVS戦略が広く適用可能で手頃な価格であることを妨げる。モデル圧縮や効率的な微調整といった従来の手法はこれらの課題に対処できるが、しばしばヒューリスティックに頼っている。つまり、それらのソリューションは簡単に移行できず、コストがかかる異なるモデルで再トレーニングする必要がなくなる。効率的なOVSの文脈では、トレーニングコストを下げるより小さなモデルを利用することで、大きなビジョン言語基盤モデルに基づいて、OVSが以前のOVSと同等かそれ以上の性能を達成することを目標としています。コア戦略は、我々の効率を原則化し、従って、さらなるカスタマイズなしに、あるOVSフレームワークから他のフレームワークにシームレスに転送できるようにすることです。多様なOVSベンチマークに関する総合的な実験では、セグメント化精度と計算コストのトレードオフが従来よりも優れていることが示されている。私たちのコードはhttps://github.com/Xujxyang/OpenTransで利用可能です。

関連論文リスト

FREE: Fast and Robust Vision Language Models with Early Exits [5.402030962296633]
我々は、GANベースのフレームワークにおいて、敵対的なトレーニングアプローチであるFREEを紹介する。提案手法は,最小限の性能低下で推論速度を向上する入力適応推論を実行することに焦点を当てる。我々は,提案手法が比較性能を維持しつつ,1.51倍以上の速度で推論処理を高速化することを確認した。
論文参考訳（メタデータ） (2025-06-07T18:26:58Z)
Learning Free Token Reduction for Multi-Modal Large Language Models [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2025-01-29T02:52:32Z)
Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。自己教師付き学習方式により,提案手法は性能と効率のバランスが良好である。特にPARは柔軟であり,複数のプルーニングバージョンを提供し,様々なプルーニングシナリオに対処する。
論文参考訳（メタデータ） (2024-12-09T13:02:35Z)
Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文参考訳（メタデータ） (2024-10-09T16:05:16Z)
Agreement-Based Cascading for Efficient Inference [32.914852531806]
Agreement-Based Cascading (ABC) は単純で効果的な適応推論手法である。 ABCは、サイズ/複雑さの増大したモデルのカスケードを構築し、データ依存ルーティングの基盤として、カスケードの各レベルにおけるモデルのアンサンブル間の合意を使用する。 ABCは既存のモデルの代替品として確実に機能し、効率と精度の両面で、最高のシングルモデルを上回ることを示しています。
論文参考訳（メタデータ） (2024-07-02T15:14:12Z)
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-05-03T14:38:59Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。