論文の概要: Towards Open Vocabulary Learning: A Survey
- arxiv url: http://arxiv.org/abs/2306.15880v4
- Date: Thu, 1 Feb 2024 08:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:39:02.894079
- Title: Towards Open Vocabulary Learning: A Survey
- Title(参考訳): オープンボキャブラリ学習に向けて:調査
- Authors: Jianzong Wu, Xiangtai Li, Shilin Xu, Haobo Yuan, Henghui Ding, Yibo
Yang, Xia Li, Jiangning Zhang, Yunhai Tong, Xudong Jiang, Bernard Ghanem,
Dacheng Tao
- Abstract要約: ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
- 参考スコア(独自算出の注目度): 146.90188069113213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of visual scene understanding, deep neural networks have made
impressive advancements in various core tasks like segmentation, tracking, and
detection. However, most approaches operate on the close-set assumption,
meaning that the model can only identify pre-defined categories that are
present in the training set. Recently, open vocabulary settings were proposed
due to the rapid progress of vision language pre-training. These new approaches
seek to locate and recognize categories beyond the annotated label space. The
open vocabulary approach is more general, practical, and effective compared to
weakly supervised and zero-shot settings. This paper provides a thorough review
of open vocabulary learning, summarizing and analyzing recent developments in
the field. In particular, we begin by comparing it to related concepts such as
zero-shot learning, open-set recognition, and out-of-distribution detection.
Then, we review several closely related tasks in the case of segmentation and
detection, including long-tail problems, few-shot, and zero-shot settings. For
the method survey, we first present the basic knowledge of detection and
segmentation in close-set as the preliminary knowledge. Next, we examine
various scenarios in which open vocabulary learning is used, identifying common
design elements and core ideas. Then, we compare the recent detection and
segmentation approaches in commonly used datasets and benchmarks. Finally, we
conclude with insights, issues, and discussions regarding future research
directions. To our knowledge, this is the first comprehensive literature review
of open vocabulary learning. We keep tracing related works at
https://github.com/jianzongwu/Awesome-Open-Vocabulary.
- Abstract(参考訳): 視覚シーン理解の分野では、ディープニューラルネットワークはセグメンテーション、トラッキング、検出など、さまざまなコアタスクにおいて驚くべき進歩を遂げている。
しかし、ほとんどのアプローチはクローズセットの仮定に基づいており、トレーニングセットに存在する事前定義されたカテゴリのみを識別できる。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
これらの新しいアプローチは、注釈付きラベル空間を超えてカテゴリを見つけ、認識することを目指している。
オープン語彙のアプローチは、弱教師付きおよびゼロショット設定に比べて、より一般的で実用的で効果的である。
本稿では,その分野における最近の発展を要約し,分析し,オープンな語彙学習の徹底的なレビューを行う。
特に,ゼロショット学習,オープンセット認識,分散検出といった関連する概念と比較することから始める。
次に, セグメンテーションと検出に関して, ロングテール問題, 少数ショット設定, ゼロショット設定など, 密接に関連するタスクをいくつか検討する。
本研究は,まず,事前知識としてクローズセットにおける検出とセグメンテーションの基本的な知識を提示する。
次に,オープン語彙学習を用いた様々なシナリオについて検討し,共通設計要素とコアアイデアを同定する。
次に、一般的なデータセットとベンチマークにおける最近の検出とセグメンテーションのアプローチを比較した。
最後に,今後の研究方向性に関する洞察,課題,議論をまとめる。
私たちの知る限り、オープンな語彙学習に関する総合的な文献レビューはこれが初めてである。
関連する作業をhttps://github.com/jianzongwu/Awesome-Open-Vocabulary.comで追跡しています。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future [6.4105103117533755]
分類学は、まず様々なタスクと方法論を整理するために開発された。
提案した分類法は、オブジェクト検出、セマンティック/インスタンス/パノプティクスのセグメンテーション、3Dとビデオの理解など、さまざまなタスクにまたがって普遍的である。
論文 参考訳(メタデータ) (2023-07-18T12:52:49Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。