論文の概要: Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding
- arxiv url: http://arxiv.org/abs/2203.05186v2
- Date: Mon, 21 Aug 2023 10:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:15:15.605716
- Title: Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding
- Title(参考訳): 疑わしい対象:一段階視覚接地におけるモデルの予測を再考する
- Authors: Yang Jiao, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang
- Abstract要約: 疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 93.82542533426766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, one-stage visual grounders attract high attention due to their
comparable accuracy but significantly higher efficiency than two-stage
grounders. However, inter-object relation modeling has not been well studied
for one-stage grounders. Inter-object relationship modeling, though important,
is not necessarily performed among all objects, as only part of them are
related to the text query and may confuse the model. We call these objects
suspected objects. However, exploring their relationships in the one-stage
paradigm is non-trivial because: First, no object proposals are available as
the basis on which to select suspected objects and perform relationship
modeling. Second, suspected objects are more confusing than others, as they may
share similar semantics, be entangled with certain relationships, etc, and
thereby more easily mislead the model prediction. Toward this end, we propose a
Suspected Object Transformation mechanism (SOT), which can be seamlessly
integrated into existing CNN and Transformer-based one-stage visual grounders
to encourage the target object selection among the suspected ones. Suspected
objects are dynamically discovered from a learned activation map adapted to the
model current discrimination ability during training. Afterward, on top of
suspected objects, a Keyword-Aware Discrimination module (KAD) and an
Exploration by Random Connection strategy (ERC) are concurrently proposed to
help the model rethink its initial prediction. On the one hand, KAD leverages
keywords contributing high to suspected object discrimination. On the other
hand, ERC allows the model to seek the correct object instead of being trapped
in a situation that always exploits the current false prediction. Extensive
experiments demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): 近年,1段の視覚グラウンダーは2段のグラウンダーと同等の精度で高い効率性を持つため,高い注目を集めている。
しかし, 対象間関係モデリングは, 単段グルーダでは十分に研究されていない。
オブジェクト間の関係モデリングは重要ではあるが、その一部だけがテキストクエリに関連しており、モデルを混乱させる可能性があるため、すべてのオブジェクト間で必ずしも実行されるわけではない。
これらのオブジェクトを疑わしいオブジェクトと呼びます。
第一に、疑わしいオブジェクトを選択し、関係モデリングを行うための基盤として、オブジェクトの提案は利用できません。
第二に、疑わしいオブジェクトは他のオブジェクトよりも混乱しており、類似のセマンティクスを共有したり、特定の関係に絡み合ったりする可能性があるため、モデル予測をより簡単に誤解します。
そこで本研究では,既存のCNNやTransformerベースのワンステージ視覚グラウンドにシームレスに統合して,対象オブジェクトの選択を促進できるSOT(Suspected Object Transformation Mechanism)を提案する。
学習したアクティベーションマップから対象物が動的に検出され、トレーニング中のモデル電流識別能力に適応する。
その後、疑わしい対象に加えて、キーワード認識識別モジュール(kad)とランダム接続戦略(erc)による探索が同時に提案され、モデルの初期予測が再考される。
一方、KADは、疑わしい対象の識別に高い寄与するキーワードを活用する。
一方、ercでは、モデルが現在の誤った予測を常に悪用する状況に閉じ込められるのではなく、正しいオブジェクトを求めることができる。
提案手法の有効性を示す広範な実験を行った。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - VReBERT: A Simple and Flexible Transformer for Visual Relationship
Detection [0.30458514384586394]
多段階学習戦略を用いた視覚的関係検出のためのBERT型変圧器モデルを提案する。
我々の単純なBERTライクなモデルは、予測予測において最先端のVRDモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-06-18T04:08:19Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。