論文の概要: Open-Vocabulary Video Relation Extraction
- arxiv url: http://arxiv.org/abs/2312.15670v1
- Date: Mon, 25 Dec 2023 09:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:05:36.599113
- Title: Open-Vocabulary Video Relation Extraction
- Title(参考訳): 開語彙ビデオ関係抽出
- Authors: Wentao Tian, Zheng Wang, Yuqian Fu, Jingjing Chen, Lechao Cheng
- Abstract要約: OVRE(Open-vocabulary Video Relation extract)は,行動中心関係三重項のレンズを通して行動理解を行う新しいタスクである。
OVREは、アクションに参加するペアワイズ関係に焦点を当て、これらの関係三つ子と自然言語を記述する。
マルチラベルアクション分類データセットをベースとした,アクション中心リレーショナルトリプレットを備えた180KビデオからなるMoments-OVREデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 37.40717383505057
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A comprehensive understanding of videos is inseparable from describing the
action with its contextual action-object interactions. However, many current
video understanding tasks prioritize general action classification and overlook
the actors and relationships that shape the nature of the action, resulting in
a superficial understanding of the action. Motivated by this, we introduce
Open-vocabulary Video Relation Extraction (OVRE), a novel task that views
action understanding through the lens of action-centric relation triplets. OVRE
focuses on pairwise relations that take part in the action and describes these
relation triplets with natural languages. Moreover, we curate the Moments-OVRE
dataset, which comprises 180K videos with action-centric relation triplets,
sourced from a multi-label action classification dataset. With Moments-OVRE, we
further propose a crossmodal mapping model to generate relation triplets as a
sequence. Finally, we benchmark existing cross-modal generation models on the
new task of OVRE.
- Abstract(参考訳): ビデオの包括的理解は、アクションを文脈的アクションオブジェクトの相互作用で記述することとは分離できない。
しかしながら、現在のビデオ理解タスクの多くは、一般的なアクション分類を優先し、アクションの性質を形成するアクターと関係を見落とし、結果としてアクションの表面的理解をもたらす。
そこで我々は,行動中心関係三重項のレンズを通して行動理解を観察する新しいタスクであるOVRE(Open-vocabulary Video Relation extract)を紹介した。
OVREは、アクションに参加するペアワイズ関係に焦点を当て、これらの関係三つ子と自然言語を記述する。
さらに,マルチラベル行動分類データセットから派生した,アクション中心関係のトリプレットを持つ180kビデオからなるmoments-ovreデータセットをキュレートする。
moments-ovreでは、関係三重項を列として生成するクロスモーダル写像モデルも提案する。
最後に,OVREの新しいタスクに対して,既存のクロスモーダル生成モデルをベンチマークする。
関連論文リスト
- Multimodal Relational Triple Extraction with Query-based Entity Object Transformer [20.97497765985682]
マルチモーダル関係抽出は、柔軟で現実的な知識の構築に不可欠である。
画像・テキスト・ペアから全三重項(エンタリティ,関係,オブジェクト領域)を抽出することを目的としたマルチモーダル・エンティティ・オブジェクト・トリプル抽出を提案する。
また,テキスト情報と視覚情報の相互作用と融合を動的に探索するクエリベースモデルQEOTを提案する。
論文 参考訳(メタデータ) (2024-08-16T12:43:38Z) - Cross-Modal Reasoning with Event Correlation for Video Question
Answering [32.332251488360185]
本稿では, 副次的・蒸留的事象関連情報として高密度キャプションモダリティを導入し, その正解を推測する。
我々は、モーダル間関係を明示的にモデル化し、異なるモーダル間で関連情報を集約するために、モーダル間推論モジュールを用いる。
質問指向および事象関連エビデンスを多段階推論により収集する,質問誘導型自己適応型マルチモーダル融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-20T02:30:39Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。