論文の概要: Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding
- arxiv url: http://arxiv.org/abs/2108.00205v1
- Date: Sat, 31 Jul 2021 10:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:42:06.979830
- Title: Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding
- Title(参考訳): Word2Pix:ビジュアルグラウンドにおけるWord to Pixel Cross Attention Transformer
- Authors: Heng Zhao, Joey Tianyi Zhou and Yew-Soon Ong
- Abstract要約: 本稿では,エンコーダ・デコーダ・トランスフォーマアーキテクチャに基づくワンステージ視覚グラウンドネットワークであるWord2Pixを提案する。
クエリ文からの各単語の埋め込みは、個別に視覚画素に参画することで同様に処理される。
提案されたWord2Pixは、既存のワンステージメソッドよりも顕著なマージンで優れている。
- 参考スコア(独自算出の注目度): 59.8167502322261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current one-stage methods for visual grounding encode the language query as
one holistic sentence embedding before fusion with visual feature. Such a
formulation does not treat each word of a query sentence on par when modeling
language to visual attention, therefore prone to neglect words which are less
important for sentence embedding but critical for visual grounding. In this
paper we propose Word2Pix: a one-stage visual grounding network based on
encoder-decoder transformer architecture that enables learning for textual to
visual feature correspondence via word to pixel attention. The embedding of
each word from the query sentence is treated alike by attending to visual
pixels individually instead of single holistic sentence embedding. In this way,
each word is given equivalent opportunity to adjust the language to vision
attention towards the referent target through multiple stacks of transformer
decoder layers. We conduct the experiments on RefCOCO, RefCOCO+ and RefCOCOg
datasets and the proposed Word2Pix outperforms existing one-stage methods by a
notable margin. The results obtained also show that Word2Pix surpasses
two-stage visual grounding models, while at the same time keeping the merits of
one-stage paradigm namely end-to-end training and real-time inference speed
intact.
- Abstract(参考訳): 視覚的特徴と融合する前に、言語クエリを1つの全体論的文としてエンコードする。
このような定式化は、言語を視覚的注意に向ける場合、問合せ文の各単語を同等に扱わないため、文の埋め込みには重要でないが、視覚的な接地には重要でない単語を無視する傾向がある。
本稿では,word2pixを提案する。word2pixは,エンコーダ・デコーダトランスフォーマアーキテクチャに基づく,単語からピクセルへの注意を通して,テキストから視覚特徴の対応を学習できる1段階のビジュアルグラウンドネットワークである。
クエリ文からの各単語の埋め込みは、単一の全体文埋め込みではなく、個別に視覚画素に参画することで同様に処理される。
このようにして、各単語には、複数のトランスフォーマーデコーダ層を通じて参照対象に対して注意を向ける言語を調整するための等価な機会が与えられる。
本稿では,RefCOCO,RefCOCO+およびRefCOCOgデータセットに関する実験を行い,提案したWord2Pixは既存のワンステージ手法よりも優れた性能を示す。
その結果、word2pixは2段階の視覚的接地モデルを超え、一方、エンド・ツー・エンドのトレーニングとリアルタイムの推論速度という1段階のパラダイムの利点を損なうことが判明した。
関連論文リスト
- Dual Modalities of Text: Visual and Textual Generative Pre-training [35.82610192457444]
本稿では,RGB画像としてレンダリングされた4億以上の文書のコーパスを事前学習する,画素ベースの自動回帰言語モデルのための新しい事前学習フレームワークを提案する。
本手法は,次のパッチ予測による視覚データと,次のトークン予測によるテキストデータの両方を分類ヘッドで処理する,二重モードトレーニング方式を特徴とする。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。