論文の概要: Distance-Aware Occlusion Detection with Focused Attention
- arxiv url: http://arxiv.org/abs/2208.11122v1
- Date: Tue, 23 Aug 2022 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:31:02.208853
- Title: Distance-Aware Occlusion Detection with Focused Attention
- Title(参考訳): 集中注意による距離認識オクルージョン検出
- Authors: Yang Li, Yucheng Tu, Xiaoxue Chen, Hao Zhao, and Guyue Zhou
- Abstract要約: 視覚的関係の研究は、意味論的から幾何学的へと一歩前進する。
本研究では,焦点を絞るインフラとして,新しい3デコーダアーキテクチャを提案する。
本モデルは,距離認識関係検出における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.65412692171429
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For humans, understanding the relationships between objects using visual
signals is intuitive. For artificial intelligence, however, this task remains
challenging. Researchers have made significant progress studying semantic
relationship detection, such as human-object interaction detection and visual
relationship detection. We take the study of visual relationships a step
further from semantic to geometric. In specific, we predict relative occlusion
and relative distance relationships. However, detecting these relationships
from a single image is challenging. Enforcing focused attention to
task-specific regions plays a critical role in successfully detecting these
relationships. In this work, (1) we propose a novel three-decoder architecture
as the infrastructure for focused attention; 2) we use the generalized
intersection box prediction task to effectively guide our model to focus on
occlusion-specific regions; 3) our model achieves a new state-of-the-art
performance on distance-aware relationship detection. Specifically, our model
increases the distance F1-score from 33.8% to 38.6% and boosts the occlusion
F1-score from 34.4% to 41.2%. Our code is publicly available.
- Abstract(参考訳): 人間にとって、視覚信号を用いた物体間の関係を理解することは直感的である。
しかし、人工知能にとってこの課題は依然として難しい。
研究者は、人間と物体の相互作用検出や視覚的な関係検出など、意味的関係検出を著しく研究している。
視覚関係の研究を意味論から幾何学へと一歩進めていく。
具体的には,相対閉塞関係と相対距離関係を予測する。
しかし、これらの関係を単一の画像から検出することは困難である。
タスク固有の領域に注意を集中させることは、これらの関係をうまく検出する上で重要な役割を果たす。
本研究では,(1)焦点を絞るインフラとして,新しい3デコーダアーキテクチャを提案する。
2) 一般化された交叉箱予測タスクを用いて, 咬合特定領域に集中するモデルを効果的に指導する。
3)本モデルは,距離認識関係検出における最先端性能を実現する。
具体的には、F1スコアの距離を33.8%から38.6%に引き上げ、F1スコアを34.4%から41.2%に引き上げる。
私たちのコードは公開されています。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Knowledge Guided Bidirectional Attention Network for Human-Object
Interaction Detection [3.0915392100355192]
HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。
HOIに新たな知識誘導型トップダウンアテンションを導入し、関係解析を「ルックアンドサーチ」プロセスとしてモデル化することを提案する。
一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装します。
論文 参考訳(メタデータ) (2022-07-16T16:42:49Z) - Distance Matters in Human-Object Interaction Detection [22.3445174577181]
HOI検出における遠隔操作をよりよく扱うための新しい2段階手法を提案する。
我々の手法における重要な構成要素は、Far Near Distance Attentionモジュールである。
さらに,距離認識損失関数(Distance-Aware loss function)を考案した。
論文 参考訳(メタデータ) (2022-07-05T08:06:05Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Kinship Verification Based on Cross-Generation Feature Interaction
Learning [53.62256887837659]
顔画像からの血縁検証は、コンピュータビジョンの応用において、新しいが挑戦的な技術として認識されている。
本稿では,頑健な親族関係検証のためのクロスジェネレーション・インタラクション・ラーニング(CFIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-07T01:50:50Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Diagnosing Rarity in Human-Object Interaction Detection [6.129776019898014]
ヒューマン・オブジェクト・インタラクション(HOI)検出はコンピュータビジョンにおける中核的なタスクである。
目標は、すべての人間と物体のペアをローカライズし、それらの相互作用を認識することである。
動詞「名詞」によって定義される相互作用は、長い尾の視覚的認識課題につながる。
論文 参考訳(メタデータ) (2020-06-10T08:35:29Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。