論文の概要: End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting
- arxiv url: http://arxiv.org/abs/2409.12499v1
- Date: Thu, 19 Sep 2024 06:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:41:29.225511
- Title: End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting
- Title(参考訳): マルチモーダル・プロンプティングによる端から端までのオープン・ボキャブラリ・ビデオ・リレーションシップ検出
- Authors: Yongqi Wang, Shuo Yang, Xinxiao Wu, Jiebo Luo,
- Abstract要約: Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
- 参考スコア(独自算出の注目度): 68.37943632270505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary video visual relationship detection aims to expand video visual relationship detection beyond annotated categories by detecting unseen relationships between both seen and unseen objects in videos. Existing methods usually use trajectory detectors trained on closed datasets to detect object trajectories, and then feed these trajectories into large-scale pre-trained vision-language models to achieve open-vocabulary classification. Such heavy dependence on the pre-trained trajectory detectors limits their ability to generalize to novel object categories, leading to performance degradation. To address this challenge, we propose to unify object trajectory detection and relationship classification into an end-to-end open-vocabulary framework. Under this framework, we propose a relationship-aware open-vocabulary trajectory detector. It primarily consists of a query-based Transformer decoder, where the visual encoder of CLIP is distilled for frame-wise open-vocabulary object detection, and a trajectory associator. To exploit relationship context during trajectory detection, a relationship query is embedded into the Transformer decoder, and accordingly, an auxiliary relationship loss is designed to enable the decoder to perceive the relationships between objects explicitly. Moreover, we propose an open-vocabulary relationship classifier that leverages the rich semantic knowledge of CLIP to discover novel relationships. To adapt CLIP well to relationship classification, we design a multi-modal prompting method that employs spatio-temporal visual prompting for visual representation and vision-guided language prompting for language input. Extensive experiments on two public datasets, VidVRD and VidOR, demonstrate the effectiveness of our framework. Our framework is also applied to a more difficult cross-dataset scenario to further demonstrate its generalization ability.
- Abstract(参考訳): Open-vocabulary video visual relationship detectionは、ビデオ内の見えないオブジェクトと見えないオブジェクトの両方の関係を検出することによって、アノテーション付きカテゴリを超えて、ビデオ視覚的関係検出を拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出し、これらの軌跡を大規模に訓練された視覚言語モデルに供給し、オープン語彙分類を実現する。
このような事前訓練された軌道検出器への強い依存は、新しい対象カテゴリーに一般化する能力を制限し、性能劣化をもたらす。
この課題に対処するために、オブジェクトの軌跡検出と関係分類をエンドツーエンドのオープン語彙フレームワークに統合することを提案する。
本枠組みでは,関係対応型オープンボキャブラリ軌道検出器を提案する。
主にクエリベースのTransformerデコーダで構成され、CLIPのビジュアルエンコーダはフレーム単位のオープン語彙オブジェクト検出のために蒸留される。
トラジェクトリ検出時に関係コンテキストを活用するために、関係クエリをTransformerデコーダに埋め込み、それに伴い、デコーダがオブジェクト間の関係を明示的に知覚できるように補助的な関係損失を設計する。
さらに,CLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係分類器を提案する。
CLIPを関係分類に適合させるために,視覚表現と視覚誘導言語に時空間的プロンプトを用いた多モーダルプロンプト法を設計した。
VidVRDとVidORの2つの公開データセットに対する大規模な実験は、我々のフレームワークの有効性を実証している。
我々のフレームワークは、その一般化能力をさらに実証するために、より難しいクロスデータセットシナリオにも適用されます。
関連論文リスト
- Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Video Relationship Detection Using Mixture of Experts [1.6574413179773761]
本稿では,専門家の混在を利用した視覚的関係検出手法であるMoE-VRDを紹介する。
MoE-VRDは、視覚処理から関係を抽出するために、主語、述語、オブジェクトの形で言語三つ子を識別する。
実験結果から, 条件付き計算能力と混合実験手法のスケーラビリティは, 最先端手法と比較して, 視覚的関係の検出性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-03-06T19:08:34Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - Visual Grounding with Transformers [43.40192909920495]
我々のアプローチはトランスエンコーダデコーダ上に構築されており、事前訓練された検出器や単語埋め込みモデルとは独立している。
提案手法は5つのベンチマークにおいて,最先端のプロポーザルフリーアプローチよりもかなり優れている。
論文 参考訳(メタデータ) (2021-05-10T11:46:12Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。