論文の概要: Visual Grounding with Attention-Driven Constraint Balancing
- arxiv url: http://arxiv.org/abs/2407.03243v2
- Date: Sat, 6 Jul 2024 15:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 10:33:20.977642
- Title: Visual Grounding with Attention-Driven Constraint Balancing
- Title(参考訳): 意識駆動型制約バランシングによる視覚的グラウンドリング
- Authors: Weitai Kang, Luowei Zhou, Junyi Wu, Changchang Sun, Yan Yan,
- Abstract要約: 本稿では,言語関連領域における視覚的特徴の挙動を最適化するために,注意駆動制約バランス(AttBalance)を提案する。
4つの異なるベンチマークで評価された5つの異なるモデルに対して、一定の改善が達成される。
QRNetにメソッドを統合することにより,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.30650183073788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike Object Detection, Visual Grounding task necessitates the detection of an object described by complex free-form language. To simultaneously model such complex semantic and visual representations, recent state-of-the-art studies adopt transformer-based models to fuse features from both modalities, further introducing various modules that modulate visual features to align with the language expressions and eliminate the irrelevant redundant information. However, their loss function, still adopting common Object Detection losses, solely governs the bounding box regression output, failing to fully optimize for the above objectives. To tackle this problem, in this paper, we first analyze the attention mechanisms of transformer-based models. Building upon this, we further propose a novel framework named Attention-Driven Constraint Balancing (AttBalance) to optimize the behavior of visual features within language-relevant regions. Extensive experimental results show that our method brings impressive improvements. Specifically, we achieve constant improvements over five different models evaluated on four different benchmarks. Moreover, we attain a new state-of-the-art performance by integrating our method into QRNet.
- Abstract(参考訳): オブジェクト検出とは異なり、ビジュアルグラウンドタスクは複雑な自由形式言語で記述されたオブジェクトの検出を必要とする。
このような複雑な意味表現と視覚表現を同時にモデル化するために、最近の最先端研究ではトランスフォーマーモデルを用いて両方のモダリティから特徴を融合させ、さらに視覚的特徴を修飾して言語表現と整合し、無関係な冗長情報を除去する様々なモジュールを導入している。
しかし、それらの損失関数は、まだ共通のオブジェクト検出損失を採用しており、境界ボックスの回帰出力のみを支配しており、上記の目的のために完全に最適化することができない。
この問題に対処するため,本論文ではまず,変圧器モデルにおける注意機構を解析する。
これに基づいて,言語関連領域における視覚的特徴の振舞いを最適化する,AttBalance(AttDriven Constraint Balancing)という新しいフレームワークを提案する。
実験結果から,本手法は優れた改善をもたらすことが示された。
具体的には、4つの異なるベンチマークで評価された5つの異なるモデルに対して一定の改善が達成される。
さらに,本手法をQRNetに組み込むことで,最先端のパフォーマンスを実現する。
関連論文リスト
- A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training [0.07499722271664146]
我々は軽量なフレームワークを導入し、性能を保ちながらパラメータの数を大幅に減らします。
MDETR の最適化版である Lightweight MDETR (LightMDETR) を開発した。
LightMDETRは計算コストを削減できるだけでなく、いくつかの最先端の手法よりも精度が高い。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Semantic Object-level Modeling for Robust Visual Camera Relocalization [14.998133272060695]
本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。
これらのモジュールはすべて、視覚的SLAMシステムに完全に介在している。
論文 参考訳(メタデータ) (2024-02-10T13:39:44Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for
Referring Video Object Segmentation [44.952526831843386]
RVOSにおけるこれらの問題に対処するために,BIFITと呼ばれる相関駆動のフレーム間相互作用変換器を提案する。
具体的には、デコーダ内の軽量なプラグアンドプレイフレーム間相互作用モジュールを設計する。
視覚的特徴と言語的特徴の相関を容易にするために、トランスフォーマーの前に視覚フェリング相互作用が実装される。
論文 参考訳(メタデータ) (2023-07-02T10:29:35Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。