論文の概要: OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network
- arxiv url: http://arxiv.org/abs/2209.05946v2
- Date: Sun, 25 Feb 2024 23:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:46:35.359109
- Title: OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network
- Title(参考訳): OmDet:マルチモーダル検出ネットワークを用いた大規模視覚言語マルチデータセット事前学習
- Authors: Tiancheng Zhao, Peng Liu and Kyusong Lee
- Abstract要約: この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 17.980765138522322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of object detection (OD) in open-vocabulary and open-world
scenarios is a critical challenge in computer vision. This work introduces
OmDet, a novel language-aware object detection architecture, and an innovative
training mechanism that harnesses continual learning and multi-dataset
vision-language pre-training. Leveraging natural language as a universal
knowledge representation, OmDet accumulates a "visual vocabulary" from diverse
datasets, unifying the task as a language-conditioned detection framework. Our
multimodal detection network (MDN) overcomes the challenges of multi-dataset
joint training and generalizes to numerous training datasets without manual
label taxonomy merging. We demonstrate superior performance of OmDet over
strong baselines in object detection in the wild, open-vocabulary detection,
and phrase grounding, achieving state-of-the-art results. Ablation studies
reveal the impact of scaling the pre-training visual vocabulary, indicating a
promising direction for further expansion to larger datasets. The effectiveness
of our deep fusion approach is underscored by its ability to learn jointly from
multiple datasets, enhancing performance through knowledge sharing.
- Abstract(参考訳): オープンボキャブラリおよびオープンワールドシナリオにおけるオブジェクト検出(OD)の進歩は、コンピュータビジョンにおいて重要な課題である。
この研究は、新しい言語対応オブジェクト検出アーキテクチャであるOmDetと、継続学習とマルチデータセットビジョン言語事前学習を利用する革新的なトレーニングメカニズムを紹介する。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから視覚語彙を蓄積し、言語条件検出フレームワークとしてタスクを統一する。
我々のマルチモーダル検出ネットワーク(MDN)は、マルチデータセット共同学習の課題を克服し、手動のラベル分類をマージせずに多数のトレーニングデータセットに一般化する。
我々は,OmDetが野生におけるオブジェクト検出,オープン語彙検出,フレーズグラウンドニングにおいて,強いベースラインよりも優れていることを示す。
アブレーション研究は、事前学習された視覚語彙のスケーリングの影響を明らかにし、より大きなデータセットへのさらなる拡張の有望な方向を示している。
我々のディープフュージョンアプローチの有効性は、複数のデータセットから共同で学習し、知識共有によるパフォーマンスを向上させる能力によって裏付けられている。
関連論文リスト
- LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining [25.11384964373604]
マルチモーダルな設定で視覚的実体を文脈化するための2つの事前学習手法を提案する。
言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、それらを付加的な画像記述として扱う。
マスク付き関係予測では、視覚的にマスクされたコンテキストを持つ画像領域からのエンティティの関連性をさらに促進する。
論文 参考訳(メタデータ) (2023-05-23T17:27:12Z) - Semi-Supervised Cross-Modal Salient Object Detection with U-Structure
Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。
本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。
ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文 参考訳(メタデータ) (2022-08-08T18:39:37Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。