論文の概要: Bear the Query in Mind: Visual Grounding with Query-conditioned
Convolution
- arxiv url: http://arxiv.org/abs/2206.09114v2
- Date: Wed, 22 Jun 2022 02:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 13:58:37.929432
- Title: Bear the Query in Mind: Visual Grounding with Query-conditioned
Convolution
- Title(参考訳): クエリを念頭に置いて:クエリ条件の畳み込みによるビジュアルグラウンド
- Authors: Chonghan Chen, Qi Jiang, Chih-Hao Wang, Noel Chen, Haohan Wang, Xiang
Li, Bhiksha Raj
- Abstract要約: 本稿では,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚的特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。
提案手法は,3つの一般的な視覚的グラウンドデータセットに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 26.523051615516742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding is a task that aims to locate a target object according to a
natural language expression. As a multi-modal task, feature interaction between
textual and visual inputs is vital. However, previous solutions mainly handle
each modality independently before fusing them together, which does not take
full advantage of relevant textual information while extracting visual
features. To better leverage the textual-visual relationship in visual
grounding, we propose a Query-conditioned Convolution Module (QCM) that
extracts query-aware visual features by incorporating query information into
the generation of convolutional kernels. With our proposed QCM, the downstream
fusion module receives visual features that are more discriminative and focused
on the desired object described in the expression, leading to more accurate
predictions. Extensive experiments on three popular visual grounding datasets
demonstrate that our method achieves state-of-the-art performance. In addition,
the query-aware visual features are informative enough to achieve comparable
performance to the latest methods when directly used for prediction without
further multi-modal fusion.
- Abstract(参考訳): ビジュアルグラウンドティングは、自然言語表現に従って対象物を見つけることを目的としたタスクである。
マルチモーダルタスクとしては,テキスト入力と視覚入力の相互作用が不可欠である。
しかし, 従来の手法では, 視覚的特徴を抽出しながら, 関係するテキスト情報を十分に活用することができない。
ビジュアルグラウンドディングにおけるテキスト-視覚的関係をよりよく活用するために,クエリ情報を畳み込みカーネルの生成に組み込むことで,クエリ対応の視覚特徴を抽出するクエリ条件付き畳み込みモジュール(QCM)を提案する。
提案したQCMにより、下流融合モジュールはより識別性が高く、表現に記述された所望のオブジェクトに焦点を絞った視覚的特徴を受け取り、より正確な予測を行う。
3つの一般的な視覚的グラウンドティングデータセットに対する大規模な実験により、我々の手法が最先端の性能を達成することを示す。
さらに、クエリアウェアなビジュアル機能は、さらなるマルチモーダル融合なしに直接予測に使用される場合、最新のメソッドに匹敵するパフォーマンスを達成するのに十分な情報を提供する。
関連論文リスト
- Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Shifting More Attention to Visual Backbone: Query-modulated Refinement
Networks for End-to-End Visual Grounding [35.44496191453257]
既存の方法は、事前訓練されたクエリに依存しない視覚的バックボーンを使用して、視覚的特徴マップを独立して抽出する。
視覚的バックボーンから抽出される視覚的特徴とマルチモーダル推論に必要な特徴は矛盾する。
不整合問題に対処するクエリ変調リファインメントネットワーク(QRNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T11:17:23Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。