論文の概要: What Holds Back Open-Vocabulary Segmentation?
- arxiv url: http://arxiv.org/abs/2508.04211v1
- Date: Wed, 06 Aug 2025 08:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.635544
- Title: What Holds Back Open-Vocabulary Segmentation?
- Title(参考訳): オープンボキャブラリセグメンテーションを支えるものは何か?
- Authors: Josip Šarić, Ivan Martinović, Matej Kristan, Siniša Šegvić,
- Abstract要約: オープンボキャブラリのアプローチは、何十億もの画像キャプチャペアを事前訓練することで、このギャップを埋めることを約束する。
本稿では,これらのボトルネックを特定し,分離する新しいオラクルコンポーネントについて,その基盤となる情報を利用して提案する。
- 参考スコア(独自算出の注目度): 7.911203522945736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Standard segmentation setups are unable to deliver models that can recognize concepts outside the training taxonomy. Open-vocabulary approaches promise to close this gap through language-image pretraining on billions of image-caption pairs. Unfortunately, we observe that the promise is not delivered due to several bottlenecks that have caused the performance to plateau for almost two years. This paper proposes novel oracle components that identify and decouple these bottlenecks by taking advantage of the groundtruth information. The presented validation experiments deliver important empirical findings that provide a deeper insight into the failures of open-vocabulary models and suggest prominent approaches to unlock the future research.
- Abstract(参考訳): 標準セグメンテーション設定は、トレーニング分類以外の概念を認識できるモデルを提供できない。
オープンボキャブラリのアプローチは、何十億もの画像キャプチャペアを事前訓練することで、このギャップを埋めることを約束する。
残念なことに,パフォーマンスが約2年にわたって高騰しているボトルネックがいくつかあるため,その保証は提供されない。
本稿では,これらのボトルネックを特定し,分離する新規なオラクルコンポーネントについて,その基盤となる情報を利用して提案する。
提案した検証実験は、オープン語彙モデルの失敗に関する深い洞察を提供する重要な経験的知見を提供し、将来の研究を解き放つための顕著なアプローチを提案する。
関連論文リスト
- Learning Discriminative Spatio-temporal Representations for Semi-supervised Action Recognition [23.44320273156057]
本稿では,適応コントラスト学習(ACL)戦略とマルチスケールテンポラル学習(MTL)戦略を提案する。
ACL戦略は、ラベル付きデータのクラスプロトタイプにより、全ての未ラベルサンプルの信頼性を評価し、擬ラベル付きサンプルバンクから正負のサンプルを適応的に選択し、コントラスト学習を構築する。
MTL戦略は、長期クリップからの情報的意味を強調し、ノイズ情報を抑制しながら、それらを短期クリップに統合する。
論文 参考訳(メタデータ) (2024-04-25T08:49:08Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Contrastive Learning with Boosted Memorization [36.957895270908324]
自己教師付き学習は、視覚的およびテキスト的データの表現学習において大きな成功を収めた。
近年の自己指導型長期学習の試行は、損失視点やモデル視点の再バランスによって行われる。
本稿では,ラベルを意識しないコンテキストにおける長期学習を強化するために,新しいBCL法を提案する。
論文 参考訳(メタデータ) (2022-05-25T11:54:22Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - D-LEMA: Deep Learning Ensembles from Multiple Annotations -- Application
to Skin Lesion Segmentation [14.266037264648533]
画像に対するアノテーションの意見のコレクションを活用することは、ゴールド基準を推定する興味深い方法です。
深層モデル学習時のアノテーションの不一致に対処する手法を提案する。
論文 参考訳(メタデータ) (2020-12-14T01:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。