論文の概要: YORO -- Lightweight End to End Visual Grounding
- arxiv url: http://arxiv.org/abs/2211.07912v1
- Date: Tue, 15 Nov 2022 05:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:52:21.419788
- Title: YORO -- Lightweight End to End Visual Grounding
- Title(参考訳): YORO―軽量で視覚的な接地を終わらせる
- Authors: Chih-Hui Ho, Srikar Appalaraju, Bhavan Jasani, R. Manmatha, Nuno
Vasconcelos
- Abstract要約: YOROは、Visual Grounding (VG)タスクのためのマルチモーダルトランスフォーマーエンコーダのみのアーキテクチャである。
自然言語クエリ、イメージパッチ、学習可能な検出トークンを消費し、参照対象の座標を予測する。
YOROはリアルタイム推論をサポートし、このクラスのすべてのアプローチ(単一段階法)を大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 58.17659561501071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present YORO - a multi-modal transformer encoder-only architecture for the
Visual Grounding (VG) task. This task involves localizing, in an image, an
object referred via natural language. Unlike the recent trend in the literature
of using multi-stage approaches that sacrifice speed for accuracy, YORO seeks a
better trade-off between speed an accuracy by embracing a single-stage design,
without CNN backbone. YORO consumes natural language queries, image patches,
and learnable detection tokens and predicts coordinates of the referred object,
using a single transformer encoder. To assist the alignment between text and
visual objects, a novel patch-text alignment loss is proposed. Extensive
experiments are conducted on 5 different datasets with ablations on
architecture design choices. YORO is shown to support real-time inference and
outperform all approaches in this class (single-stage methods) by large
margins. It is also the fastest VG model and achieves the best speed/accuracy
trade-off in the literature.
- Abstract(参考訳): 本稿では,Visual Grounding (VG) タスクのためのマルチモーダルトランスフォーマーエンコーダのみのアーキテクチャ YORO を提案する。
このタスクは、画像の中で自然言語で参照されるオブジェクトをローカライズする。
精度を犠牲にしてスピードを犠牲にする多段アプローチを採用するという最近の文献の傾向とは異なり、yoroはcnnバックボーンを使わずに単段設計を採用することで精度を速めるためのトレードオフを追求している。
YOROは自然言語クエリ、イメージパッチ、学習可能な検出トークンを消費し、単一のトランスフォーマーエンコーダを使用して参照オブジェクトの座標を予測する。
テキストと視覚オブジェクトのアライメントを支援するために,新しいパッチテキストアライメント損失を提案する。
大規模な実験は5つの異なるデータセットで実施され、アーキテクチャ設計の選択を省略する。
YOROはリアルタイム推論をサポートし、このクラスのすべてのアプローチ(単一段階法)を大きなマージンで上回っている。
また、最も高速なVGモデルであり、文学において最高の速度/精度のトレードオフを達成する。
関連論文リスト
- Real-Time Text Detection with Similar Mask in Traffic, Industrial, and Natural Scenes [31.180352896153682]
有効なテキスト表現類似マスク(SM)と特徴補正モジュール(FCM)を含む,効率的なマルチシーンテキスト検出手法を提案する。
SM-Netの状況を検証するため,交通,産業,自然シーンのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2024-11-05T04:08:59Z) - FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting [14.054151352916296]
本稿では,Swin Transformerの視覚バックボーンとTransformer-Decoderアーキテクチャを統合したFastTextSpotterを提案する。
FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。
以上の結果から,FastTextSpotterは多言語シーンテキストの検出と認識において,より優れた精度を実現することが示唆された。
論文 参考訳(メタデータ) (2024-08-27T12:28:41Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。