論文の概要: X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2204.05626v1
- Date: Tue, 12 Apr 2022 08:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 11:39:32.455396
- Title: X-DETR: A Versatile Architecture for Instance-wise Vision-Language Tasks
- Title(参考訳): x-detr: インスタンス毎の視覚言語タスクのための汎用アーキテクチャ
- Authors: Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen
Tu, Rahul Bhotika, Stefano Soatto
- Abstract要約: 本稿では,オブジェクト検出,言語エンコーダ,視覚言語アライメントの3つの主要コンポーネントを持つX-DETRを提案する。
ビジョンと言語ストリームは最後には独立しており、効率的なドット生成操作を使用してアライメントされる。
X-DETRのこの単純で効果的なアーキテクチャは、複数のインスタンス単位の視覚言語タスクに対して、精度と高速さを示している。
- 参考スコア(独自算出の注目度): 75.56650007303281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the challenging instance-wise vision-language tasks,
where the free-form language is required to align with the objects instead of
the whole image. To address these tasks, we propose X-DETR, whose architecture
has three major components: an object detector, a language encoder, and
vision-language alignment. The vision and language streams are independent
until the end and they are aligned using an efficient dot-product operation.
The whole network is trained end-to-end, such that the detector is optimized
for the vision-language tasks instead of an off-the-shelf component. To
overcome the limited size of paired object-language annotations, we leverage
other weak types of supervision to expand the knowledge coverage. This simple
yet effective architecture of X-DETR shows good accuracy and fast speeds for
multiple instance-wise vision-language tasks, e.g., 16.4 AP on LVIS detection
of 1.2K categories at ~20 frames per second without using any LVIS annotation
during training.
- Abstract(参考訳): 本稿では,画像全体ではなく,オブジェクトと協調するための自由形式言語が必要となる,インスタンス毎の視覚言語課題について検討する。
これらの課題に対処するために,オブジェクト検出,言語エンコーダ,視覚言語アライメントという3つの主要コンポーネントを持つX-DETRを提案する。
ビジョンと言語ストリームは最後まで独立しており、効率的なドット製品操作を使って調整される。
ネットワーク全体はエンドツーエンドでトレーニングされ、検出器は既製のコンポーネントではなく視覚言語タスクに最適化される。
ペアリングされたオブジェクト指向アノテーションの限られたサイズを克服するために、他の弱いタイプの監視を活用して知識カバレッジを拡大する。
この単純で効果的なx-detrのアーキテクチャは、トレーニング中にlvisアノテーションを使わずに、毎秒約20フレームで1.2kのカテゴリを検出するための16.4 apのような、複数のインスタンス毎の視覚言語タスクの精度と高速さを示している。
関連論文リスト
- More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training [0.07499722271664146]
我々は軽量なフレームワークを導入し、性能を保ちながらパラメータの数を大幅に減らします。
MDETR の最適化版である Lightweight MDETR (LightMDETR) を開発した。
LightMDETRは計算コストを削減できるだけでなく、いくつかの最先端の手法よりも精度が高い。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [27.45225442048711]
我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T12:21:37Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。