論文の概要: METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection
- arxiv url: http://arxiv.org/abs/2505.06663v1
- Date: Sat, 10 May 2025 14:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.974723
- Title: METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection
- Title(参考訳): METOR:オープン・ボキャブラリ・ビデオ・ビジュアル・リレーション検出におけるオブジェクトとリレーションの相互強化のための統一フレームワーク
- Authors: Yongqi Wang, Xinxiao Wu, Shuo Yang,
- Abstract要約: Open-vocabulary video visual relationship detectionは、事前に定義されたオブジェクトや関係カテゴリに制限されることなく、ビデオ内のオブジェクトとそれらの関係を検出することを目的としている。
既存の手法では、CLIPのような事前訓練された視覚言語モデルの豊富な意味知識を活用して、新しいカテゴリを識別する。
オープン語彙シナリオにおけるオブジェクト検出と関係分類を相互にモデル化し,相互に強化するために,Multual EnhancemenT of Objects and Relationships (METOR)を提案する。
- 参考スコア(独自算出の注目度): 25.542175004831844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary video visual relationship detection aims to detect objects and their relationships in videos without being restricted by predefined object or relationship categories. Existing methods leverage the rich semantic knowledge of pre-trained vision-language models such as CLIP to identify novel categories. They typically adopt a cascaded pipeline to first detect objects and then classify relationships based on the detected objects, which may lead to error propagation and thus suboptimal performance. In this paper, we propose Mutual EnhancemenT of Objects and Relationships (METOR), a query-based unified framework to jointly model and mutually enhance object detection and relationship classification in open-vocabulary scenarios. Under this framework, we first design a CLIP-based contextual refinement encoding module that extracts visual contexts of objects and relationships to refine the encoding of text features and object queries, thus improving the generalization of encoding to novel categories. Then we propose an iterative enhancement module to alternatively enhance the representations of objects and relationships by fully exploiting their interdependence to improve recognition performance. Extensive experiments on two public datasets, VidVRD and VidOR, demonstrate that our framework achieves state-of-the-art performance.
- Abstract(参考訳): Open-vocabulary video visual relationship detectionは、事前に定義されたオブジェクトや関係カテゴリに制限されることなく、ビデオ内のオブジェクトとそれらの関係を検出することを目的としている。
既存の手法では、CLIPのような事前訓練された視覚言語モデルの豊富な意味知識を活用して、新しいカテゴリを識別する。
通常はカスケードパイプラインを使用して、まずオブジェクトを検出し、次に検出されたオブジェクトに基づいて関係を分類する。
本稿では,オープンボキャブラリシナリオにおけるオブジェクト検出と関係分類を相互にモデル化し,相互に強化するクエリベースの統合フレームワークであるMultual EnhancemenT of Objects and Relationships (METOR)を提案する。
このフレームワークでは、まず、CLIPベースのコンテキスト変換モジュールを設計し、オブジェクトと関係の視覚的コンテキストを抽出し、テキストの特徴やオブジェクトクエリのエンコーディングを洗練し、新しいカテゴリへのエンコーディングの一般化を改善する。
そして,その相互依存をフル活用して認識性能を向上させることにより,オブジェクトと関係の表現を代替的に強化する反復拡張モジュールを提案する。
VidVRDとVidORの2つの公開データセットに対する大規模な実験は、我々のフレームワークが最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Relational Prior Knowledge Graphs for Detection and Instance
Segmentation [24.360473253478112]
本稿では,先行値を用いたオブジェクト機能拡張グラフを提案する。
COCOの実験的評価は、リレーショナル先行で拡張されたシーングラフの利用は、オブジェクト検出とインスタンスセグメンテーションの利点をもたらすことを示している。
論文 参考訳(メタデータ) (2023-10-11T15:15:05Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。