論文の概要: Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision
- arxiv url: http://arxiv.org/abs/2307.12392v1
- Date: Sun, 23 Jul 2023 17:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:21:23.752753
- Title: Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision
- Title(参考訳): Masked Reference based Centerpoint Supervision を用いた反復的ロバスト視覚接地
- Authors: Menghao Li, Chunlei Wang, Wenquan Feng, Shuchang Lyu, Guangliang
Cheng, Xiangtai Li, Binghao Liu, Qi Zhao
- Abstract要約: 本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
- 参考スコア(独自算出の注目度): 24.90534567531536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding (VG) aims at localizing target objects from an image based
on given expressions and has made significant progress with the development of
detection and vision transformer. However, existing VG methods tend to generate
false-alarm objects when presented with inaccurate or irrelevant descriptions,
which commonly occur in practical applications. Moreover, existing methods fail
to capture fine-grained features, accurate localization, and sufficient context
comprehension from the whole image and textual descriptions. To address both
issues, we propose an Iterative Robust Visual Grounding (IR-VG) framework with
Masked Reference based Centerpoint Supervision (MRCS). The framework introduces
iterative multi-level vision-language fusion (IMVF) for better alignment. We
use MRCS to ahieve more accurate localization with point-wised feature
supervision. Then, to improve the robustness of VG, we also present a
multi-stage false-alarm sensitive decoder (MFSD) to prevent the generation of
false-alarm objects when presented with inaccurate expressions. The proposed
framework is evaluated on five regular VG datasets and two newly constructed
robust VG datasets. Extensive experiments demonstrate that IR-VG achieves new
state-of-the-art (SOTA) results, with improvements of 25\% and 10\% compared to
existing SOTA approaches on the two newly proposed robust VG datasets.
Moreover, the proposed framework is also verified effective on five regular VG
datasets. Codes and models will be publicly at
https://github.com/cv516Buaa/IR-VG.
- Abstract(参考訳): 視覚グラウンディング(vg)は、与えられた表現に基づく画像から対象オブジェクトをローカライズすることを目的としており、検出および視覚トランスフォーマの開発において大きな進歩を遂げている。
しかしながら、既存のVG法は、不正確な記述や無関係な記述が提示されたときに偽アラームオブジェクトを生成する傾向がある。
さらに、既存の手法では、画像全体とテキスト記述から、きめ細かい特徴、正確な局所化、および十分なコンテキスト理解を捉えることができない。
両問題に対処するため,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
このフレームワークは、アライメントを改善するために反復的多段階視覚言語融合(IMVF)を導入している。
MRCSを用いて,より正確な位置推定を行う。
次に,VGのロバスト性を改善するために,不正確な表現を提示した場合の偽アラーム生成を防止するために,多段階の偽アラームセンシティブデコーダ(MFSD)を提案する。
提案フレームワークは5つの正規VGデータセットと2つの新たに構築された堅牢VGデータセットで評価される。
広汎な実験により、IR-VGは、新たに提案された2つの堅牢なVGデータセットに対する既存のSOTAアプローチと比較して、25\%と10\%の改善により、新しい最先端(SOTA)結果を達成することが示された。
さらに,提案フレームワークが5つの正規vgデータセット上で有効であることも確認した。
コードとモデルはhttps://github.com/cv516Buaa/IR-VG.comで公開される。
関連論文リスト
- DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - A Bayesian Approach to OOD Robustness in Image Classification [20.104489420303306]
対象分類のためのOODロバストネスに対する新しいベイズ的アプローチを導入する。
我々は、CompNetsがvon Mises-Fisher(vMF)カーネルで表される特徴ベクトル上に定義された生成ヘッドを含んでいるという事実を活用する。
これにより、ソースとターゲットドメインの中間に位置するvMFカーネルの遷移辞書を学習することができる。
論文 参考訳(メタデータ) (2024-03-12T03:15:08Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging
Cross-Modal Attention with Large Language Models [17.488420164181463]
本稿では,自律走行車(AV)の視覚的接地に対処する高度なエンコーダデコーダフレームワークを提案する。
我々のContext-Aware Visual Grounding(CAVG)モデルは、5つのコアエンコーダ-Text, Image, Context, Cross-Modal-をマルチモーダルデコーダと統合した高度なシステムである。
論文 参考訳(メタデータ) (2023-12-06T15:14:30Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic
Manipulation [20.041507826568093]
Grounding Vision to Ceaselessly Created Instructions (GVCCI)は、言語誘導ロボットマニピュレーション(LGRM)のための生涯学習フレームワークである。
GVCCIは、オブジェクト検出による合成命令を反復的に生成し、生成されたデータでVGモデルを訓練する。
実験の結果、GVCCIはVGを最大56.7%改善し、LGRMを最大29.4%改善することがわかった。
論文 参考訳(メタデータ) (2023-07-12T07:12:20Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - RendNet: Unified 2D/3D Recognizer With Latent Space Rendering [18.877203720641393]
VG-to-RGレンダリングプロセスは、VGとRG情報を効果的に組み合わせるのに不可欠である。
本稿では,2次元シナリオと3次元シナリオの両方の認識のための統一アーキテクチャであるRendNetを提案する。
論文 参考訳(メタデータ) (2022-06-21T01:23:11Z) - Visual Grounding with Transformers [43.40192909920495]
我々のアプローチはトランスエンコーダデコーダ上に構築されており、事前訓練された検出器や単語埋め込みモデルとは独立している。
提案手法は5つのベンチマークにおいて,最先端のプロポーザルフリーアプローチよりもかなり優れている。
論文 参考訳(メタデータ) (2021-05-10T11:46:12Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。