論文の概要: MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding
- arxiv url: http://arxiv.org/abs/2104.12763v1
- Date: Mon, 26 Apr 2021 17:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 15:33:38.819581
- Title: MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding
- Title(参考訳): MDETR -- エンドツーエンドマルチモーダル理解のための変調検出
- Authors: Aishwarya Kamath, Mannat Singh, Yann LeCun, Ishan Misra, Gabriel
Synnaeve, Nicolas Carion
- Abstract要約: 生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
- 参考スコア(独自算出の注目度): 40.24656027709833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal reasoning systems rely on a pre-trained object detector to
extract regions of interest from the image. However, this crucial module is
typically used as a black box, trained independently of the downstream task and
on a fixed vocabulary of objects and attributes. This makes it challenging for
such systems to capture the long tail of visual concepts expressed in free form
text. In this paper we propose MDETR, an end-to-end modulated detector that
detects objects in an image conditioned on a raw text query, like a caption or
a question. We use a transformer-based architecture to reason jointly over text
and image by fusing the two modalities at an early stage of the model. We
pre-train the network on 1.3M text-image pairs, mined from pre-existing
multi-modal datasets having explicit alignment between phrases in text and
objects in the image. We then fine-tune on several downstream tasks such as
phrase grounding, referring expression comprehension and segmentation,
achieving state-of-the-art results on popular benchmarks. We also investigate
the utility of our model as an object detector on a given label set when
fine-tuned in a few-shot setting. We show that our pre-training approach
provides a way to handle the long tail of object categories which have very few
labelled instances. Our approach can be easily extended for visual question
answering, achieving competitive performance on GQA and CLEVR. The code and
models are available at https://github.com/ashkamath/mdetr.
- Abstract(参考訳): マルチモーダル推論システムは、画像から興味のある領域を抽出するために事前学習された物体検出器に依存する。
しかし、この重要なモジュールは一般的にブラックボックスとして使用され、下流のタスクとオブジェクトと属性の固定語彙から独立して訓練される。
これにより、このようなシステムがフリーフォームテキストで表現された視覚概念のロングテールを捉えることが困難になる。
本稿では,字幕や質問文などの原文クエリで条件付き画像中の物体を検出するエンドツーエンド変調検出器であるMDETRを提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
我々は、既存のマルチモーダルデータセットから抽出した1.3Mテキストイメージペアのネットワークを事前トレーニングし、テキスト中のフレーズと画像内のオブジェクトの間に明確なアライメントを持つ。
次に、フレーズグラウンド、表現理解、セグメンテーションなどの下流タスクを微調整し、一般的なベンチマークで最先端の結果を得る。
また,複数ショットで微調整した場合のラベルセットのオブジェクト検出器としての有用性についても検討した。
我々の事前トレーニングアプローチは、非常に少ないラベル付きインスタンスを持つオブジェクトカテゴリのロングテールを処理する方法を提供する。
GQAとCLEVRの競合性能を実現することで,視覚的質問応答を容易に拡張することができる。
コードとモデルはhttps://github.com/ashkamath/mdetrで入手できる。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and
Grounding [34.078590816368056]
句抽出と接地(PEG)の両面を考慮した視覚的接地の問題について検討する。
PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけるモデルを必要とする。
画像とテキストの異なる特徴を探索する2つのクエリを導入した新しいDQ-DETRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-28T16:30:46Z) - Prompt-Based Multi-Modal Image Segmentation [81.58378196535003]
テスト時に任意のプロンプトに基づいて画像セグメンテーションを生成するシステムを提案する。
プロンプトはテキストかイメージのいずれかでもよい。
私たちはCLIPモデルをバックボーンとして構築し、トランスフォーマーベースのデコーダで拡張します。
論文 参考訳(メタデータ) (2021-12-18T21:27:19Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。