論文の概要: Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding
- arxiv url: http://arxiv.org/abs/2203.05186v1
- Date: Thu, 10 Mar 2022 06:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:46:52.437136
- Title: Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding
- Title(参考訳): 疑わしい対象:一段階視覚接地におけるモデルの予測を再考する
- Authors: Yang Jiao, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang
- Abstract要約: 本稿では,1段階の視覚的グラウンドにおいて,被疑者間の参照対象の選択を正しく行うために,疑似オブジェクトグラフ(SOG)を提案する。
- 参考スコア(独自算出の注目度): 89.8659325179813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, one-stage visual grounders attract high attention due to the
comparable accuracy but significantly higher efficiency than two-stage
grounders. However, inter-object relation modeling has not been well studied
for one-stage grounders. Inter-object relationship modeling, though important,
is not necessarily performed among all the objects within the image, as only a
part of them are related to the text query and may confuse the model. We call
these objects "suspected objects". However, exploring relationships among these
suspected objects in the one-stage visual grounding paradigm is non-trivial due
to two core problems: (1) no object proposals are available as the basis on
which to select suspected objects and perform relationship modeling; (2)
compared with those irrelevant to the text query, suspected objects are more
confusing, as they may share similar semantics, be entangled with certain
relationships, etc, and thereby more easily mislead the model's prediction. To
address the above issues, this paper proposes a Suspected Object Graph (SOG)
approach to encourage the correct referred object selection among the suspected
ones in the one-stage visual grounding. Suspected objects are dynamically
selected from a learned activation map as nodes to adapt to the current
discrimination ability of the model during training. Afterward, on top of the
suspected objects, a Keyword-aware Node Representation module (KNR) and an
Exploration by Random Connection strategy (ERC) are concurrently proposed
within the SOG to help the model rethink its initial prediction. Extensive
ablation studies and comparison with state-of-the-art approaches on prevalent
visual grounding benchmarks demonstrate the effectiveness of our proposed
method.
- Abstract(参考訳): 近年,1段の視覚グラウンダーは,2段のグラウンダーに比べて精度は高いが,高い効率で注目されている。
しかし, 対象間関係モデリングは, 単段グルーダでは十分に研究されていない。
オブジェクト間の関係モデリングは重要なことではあるが、画像内のすべてのオブジェクトの中で必ずしも実行されるわけではない。
これらのオブジェクトを"suspected objects"と呼んでいます。
However, exploring relationships among these suspected objects in the one-stage visual grounding paradigm is non-trivial due to two core problems: (1) no object proposals are available as the basis on which to select suspected objects and perform relationship modeling; (2) compared with those irrelevant to the text query, suspected objects are more confusing, as they may share similar semantics, be entangled with certain relationships, etc, and thereby more easily mislead the model's prediction.
上記の問題に対処するため,一段階の視覚的グラウンドにおける被疑者間の正しい参照対象選択を促すために,疑似オブジェクトグラフ(SOG)アプローチを提案する。
疑似オブジェクトは、学習したアクティベーションマップからノードとして動的に選択され、トレーニング中のモデルの現在の識別能力に適応する。
その後、疑わしいオブジェクトの上に、キーワード認識ノード表現モジュール(knr)とランダム接続戦略(erc)による探索がsom内で同時に提案され、モデルが初期予測を再考するのに役立つ。
広汎なアブレーション研究と最先端手法との比較により,提案手法の有効性が示された。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - VReBERT: A Simple and Flexible Transformer for Visual Relationship
Detection [0.30458514384586394]
多段階学習戦略を用いた視覚的関係検出のためのBERT型変圧器モデルを提案する。
我々の単純なBERTライクなモデルは、予測予測において最先端のVRDモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-06-18T04:08:19Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。