論文の概要: Referencing Where to Focus: Improving VisualGrounding with Referential Query
- arxiv url: http://arxiv.org/abs/2412.19155v1
- Date: Thu, 26 Dec 2024 10:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:00.565116
- Title: Referencing Where to Focus: Improving VisualGrounding with Referential Query
- Title(参考訳): フォーカスする場所の参照:参照クエリによるVisualGroundingの改善
- Authors: Yabing Wang, Zhuotao Tian, Qingpei Guo, Zheng Qin, Sanping Zhou, Ming Yang, Le Wang,
- Abstract要約: 本稿ではRefFormerと呼ばれる新しい視覚的接地手法を提案する。
これはクエリ適応モジュールで構成されており、CLIPにシームレスに統合できる。
提案するクエリ適応モジュールはアダプタとしても機能し,バックボーンネットワークのパラメータをチューニングすることなく,CLIP内の豊富な知識を保存できる。
- 参考スコア(独自算出の注目度): 30.33315985826623
- License:
- Abstract: Visual Grounding aims to localize the referring object in an image given a natural language expression. Recent advancements in DETR-based visual grounding methods have attracted considerable attention, as they directly predict the coordinates of the target object without relying on additional efforts, such as pre-generated proposal candidates or pre-defined anchor boxes. However, existing research primarily focuses on designing stronger multi-modal decoder, which typically generates learnable queries by random initialization or by using linguistic embeddings. This vanilla query generation approach inevitably increases the learning difficulty for the model, as it does not involve any target-related information at the beginning of decoding. Furthermore, they only use the deepest image feature during the query learning process, overlooking the importance of features from other levels. To address these issues, we propose a novel approach, called RefFormer. It consists of the query adaption module that can be seamlessly integrated into CLIP and generate the referential query to provide the prior context for decoder, along with a task-specific decoder. By incorporating the referential query into the decoder, we can effectively mitigate the learning difficulty of the decoder, and accurately concentrate on the target object. Additionally, our proposed query adaption module can also act as an adapter, preserving the rich knowledge within CLIP without the need to tune the parameters of the backbone network. Extensive experiments demonstrate the effectiveness and efficiency of our proposed method, outperforming state-of-the-art approaches on five visual grounding benchmarks.
- Abstract(参考訳): Visual Groundingは、自然言語で表現された画像中の参照対象をローカライズすることを目的としている。
近年のDETRに基づく視覚的接地手法の進歩は, 提案候補や事前定義されたアンカーボックスなどの追加の作業に頼ることなく, 対象物体の座標を直接予測するなど, 注目されている。
しかし、既存の研究は主に、ランダム初期化や言語埋め込みを用いて学習可能なクエリを生成する、より強力なマルチモーダルデコーダの設計に重点を置いている。
このバニラクエリ生成アプローチは、デコード開始時にターゲット関連情報を含まないため、必然的にモデルの学習困難を増大させる。
さらに、クエリ学習プロセスでは、他のレベルの機能の重要性を見越して、最も深いイメージ機能のみを使用する。
これらの問題に対処するために、RefFormerと呼ばれる新しいアプローチを提案する。
これはクエリ適応モジュールで構成されており、CLIPにシームレスに統合され、参照クエリを生成してデコーダの以前のコンテキストとタスク固有のデコーダを提供する。
参照クエリをデコーダに組み込むことで、デコーダの学習困難を効果的に軽減し、ターゲットオブジェクトに正確に集中することができる。
さらに、提案したクエリ適応モジュールはアダプタとしても機能し、バックボーンネットワークのパラメータをチューニングすることなく、CLIP内の豊富な知識を保存することができる。
広汎な実験により提案手法の有効性と効率を実証し、5つの視覚的グラウンドベンチマークにおいて最先端の手法より優れた結果を得た。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Improving Visual Object Tracking through Visual Prompting [24.436237938873695]
トラッカーの識別能力に限界があるため,トラッカーに対する動的対象適応は困難である。
本稿では、この問題を解決するために、汎用的なビジュアルオブジェクト追跡(PiVOT)のための新しいビジュアルプロンプティング機構を提案する。
PiVOTは、事前訓練された基礎モデルCLIPによるプロンプト生成ネットワークを提案し、視覚的プロンプトを自動生成し、洗練する。
論文 参考訳(メタデータ) (2024-09-27T16:39:50Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。
近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。
本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T17:32:26Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。