論文の概要: OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment
- arxiv url: http://arxiv.org/abs/2503.09416v1
- Date: Wed, 12 Mar 2025 14:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:02.841117
- Title: OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment
- Title(参考訳): OpenVidVRD: プロンプト駆動セマンティック空間アライメントによるオープン語彙ビデオ視覚関係検出
- Authors: Qi Liu, Weiying Xue, Yuxiao Wang, Zhenao Wei,
- Abstract要約: 視覚言語モデル(VLM)は、オープン語彙の視覚的関係の検出に役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。
本稿では,オープン語彙のVidVRDフレームワークであるOpenVidVRDを提案する。
- 参考スコア(独自算出の注目度): 5.215417164787923
- License:
- Abstract: The video visual relation detection (VidVRD) task is to identify objects and their relationships in videos, which is challenging due to the dynamic content, high annotation costs, and long-tailed distribution of relations. Visual language models (VLMs) help explore open-vocabulary visual relation detection tasks, yet often overlook the connections between various visual regions and their relations. Moreover, using VLMs to directly identify visual relations in videos poses significant challenges because of the large disparity between images and videos. Therefore, we propose a novel open-vocabulary VidVRD framework, termed OpenVidVRD, which transfers VLMs' rich knowledge and powerful capabilities to improve VidVRD tasks through prompt learning. Specificall y, We use VLM to extract text representations from automatically generated region captions based on the video's regions. Next, we develop a spatiotemporal refiner module to derive object-level relationship representations in the video by integrating cross-modal spatiotemporal complementary information. Furthermore, a prompt-driven strategy to align semantic spaces is employed to harness the semantic understanding of VLMs, enhancing the overall generalization ability of OpenVidVRD. Extensive experiments conducted on the VidVRD and VidOR public datasets show that the proposed model outperforms existing methods.
- Abstract(参考訳): ビデオの視覚的関係検出(VidVRD)タスクは、動的コンテンツ、高いアノテーションコスト、長期にわたる関係の分布のため、ビデオ内のオブジェクトとその関係を識別することである。
視覚言語モデル(VLM)は、オープン語彙の視覚的関係検出タスクを探索するのに役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。
さらに、ビデオ内の視覚的関係を直接識別するためにVLMを使用することは、画像とビデオの間に大きな相違があるため、大きな課題となる。
そこで我々は,VLMの豊富な知識と強力な能力を伝達し,迅速な学習を通じてVDVRDタスクを改善する,オープン語彙型VidVRDフレームワークOpenVidVRDを提案する。
具体的には、VLMを用いて、ビデオの領域に基づいて自動生成された領域キャプションからテキスト表現を抽出する。
次に、モーダルな時空間補間情報を統合することで、ビデオ内のオブジェクトレベルの関係表現を導出する時空間補間モジュールを開発する。
さらに,VLMのセマンティック理解を活用し,OpenVidVRDの全体的な一般化能力を高めるために,セマンティック空間を整合させるプロンプト駆動型戦略を採用した。
VidVRDとVidORの公開データセットで実施された大規模な実験は、提案モデルが既存の手法より優れていることを示している。
関連論文リスト
- Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。
OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。
我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文 参考訳(メタデータ) (2024-12-12T14:53:16Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。