論文の概要: Renovating Names in Open-Vocabulary Segmentation Benchmarks
- arxiv url: http://arxiv.org/abs/2403.09593v1
- Date: Thu, 14 Mar 2024 17:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:06:48.313624
- Title: Renovating Names in Open-Vocabulary Segmentation Benchmarks
- Title(参考訳): Open-Vocabulary Segmentationベンチマークにおける名前の更新
- Authors: Haiwen Huang, Songyou Peng, Dan Zhang, Andreas Geiger,
- Abstract要約: オープン語彙セグメンテーションベンチマーク(RENOVATE)における「改称」のためのフレームワークを提案する。
モデルにより生成された名前は、視覚セグメントのより正確な記述であることを示す。
改良された名前は、様々なベンチマークで元の名前から最大16%の相対的な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 31.243790558954288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Names are essential to both human cognition and vision-language models. Open-vocabulary models utilize class names as text prompts to generalize to categories unseen during training. However, name qualities are often overlooked and lack sufficient precision in existing datasets. In this paper, we address this underexplored problem by presenting a framework for "renovating" names in open-vocabulary segmentation benchmarks (RENOVATE). Through human study, we demonstrate that the names generated by our model are more precise descriptions of the visual segments and hence enhance the quality of existing datasets by means of simple renaming. We further demonstrate that using our renovated names enables training of stronger open-vocabulary segmentation models. Using open-vocabulary segmentation for name quality evaluation, we show that our renovated names lead to up to 16% relative improvement from the original names on various benchmarks across various state-of-the-art models. We provide our code and relabelings for several popular segmentation datasets (ADE20K, Cityscapes, PASCAL Context) to the research community.
- Abstract(参考訳): 名前は人間の認知と視覚言語モデルの両方に必須である。
オープン語彙モデルは、訓練中に見えないカテゴリに一般化するテキストプロンプトとしてクラス名を利用する。
しかし、名前の品質はしばしば見過ごされ、既存のデータセットに十分な精度が欠如している。
本稿では,オープンボキャブラリセグメンテーションベンチマーク(RENOVATE)における「リノベーション」の枠組みを提示することにより,この問題に対処する。
人間の研究を通して、我々のモデルによって生成された名前は視覚セグメントのより正確な記述であり、したがって単純なリネームによって既存のデータセットの品質を高めることを実証する。
さらに, 改良された名称を用いることで, より強力な開語彙セグメンテーションモデルの訓練が可能になることを実証した。
名称品質評価にオープンボキャブラリセグメンテーションを用いることで, 改良された名称は, 様々な評価モデルにおいて, 元の名称から最大16%の相対的な改善をもたらすことを示す。
研究コミュニティに人気のセグメンテーションデータセット(ADE20K, Cityscapes, PASCAL Context)のコードとレバリングを提供しています。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Auto-Vocabulary Semantic Segmentation [13.410217680999462]
textitAuto-Vocabulary Semantics (AVS)を導入する。
本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - From Categories to Classifier: Name-Only Continual Learning by Exploring
the Web [125.75085825742092]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Exploiting Category Names for Few-Shot Classification with
Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-29T21:08:46Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。