論文の概要: A Unified Model for Video Understanding and Knowledge Embedding with
Heterogeneous Knowledge Graph Dataset
- arxiv url: http://arxiv.org/abs/2211.10624v2
- Date: Sun, 2 Apr 2023 03:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:09:04.704368
- Title: A Unified Model for Video Understanding and Knowledge Embedding with
Heterogeneous Knowledge Graph Dataset
- Title(参考訳): 異種知識グラフデータセットを用いた映像理解と知識埋め込みのための統一モデル
- Authors: Jiaxin Deng, Dong Shen, Haojie Pan, Xiangyu Wu, Ximan Liu, Gaofeng
Meng, Fan Yang, Size Li, Ruiji Fu, Zhongyuan Wang
- Abstract要約: マルチモーダルビデオエンティティと実りある常識関係を含む異種データセットを提案する。
実験により,映像理解の埋め込みと事実知識を組み合わせることで,コンテンツに基づく映像検索性能が向上することが示唆された。
また、VRTやVRVタスクにおいて従来のKGEベースの手法よりも優れた知識グラフの埋め込みを生成するのに役立つ。
- 参考スコア(独自算出の注目度): 47.805378137676605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding is an important task in short video business platforms
and it has a wide application in video recommendation and classification. Most
of the existing video understanding works only focus on the information that
appeared within the video content, including the video frames, audio and text.
However, introducing common sense knowledge from the external Knowledge Graph
(KG) dataset is essential for video understanding when referring to the content
which is less relevant to the video. Owing to the lack of video knowledge graph
dataset, the work which integrates video understanding and KG is rare. In this
paper, we propose a heterogeneous dataset that contains the multi-modal video
entity and fruitful common sense relations. This dataset also provides multiple
novel video inference tasks like the Video-Relation-Tag (VRT) and
Video-Relation-Video (VRV) tasks. Furthermore, based on this dataset, we
propose an end-to-end model that jointly optimizes the video understanding
objective with knowledge graph embedding, which can not only better inject
factual knowledge into video understanding but also generate effective
multi-modal entity embedding for KG. Comprehensive experiments indicate that
combining video understanding embedding with factual knowledge benefits the
content-based video retrieval performance. Moreover, it also helps the model
generate better knowledge graph embedding which outperforms traditional
KGE-based methods on VRT and VRV tasks with at least 42.36% and 17.73%
improvement in HITS@10.
- Abstract(参考訳): ビデオ理解はショートビデオビジネスプラットフォームにおいて重要な課題であり、ビデオレコメンデーションと分類に広く応用されている。
既存のビデオ理解作業のほとんどは、ビデオフレーム、オーディオ、テキストなど、ビデオコンテンツの中に現れる情報のみに焦点を当てている。
しかし,外部知識グラフ(KG)データセットから常識知識を導入することは,映像にはあまり関連のないコンテンツを参照する場合,ビデオ理解に不可欠である。
ビデオ知識グラフデータセットの欠如により、ビデオ理解とkgを統合する作業は稀である。
本稿では,マルチモーダルビデオエンティティと実りある共通感覚関係を含む異種データセットを提案する。
このデータセットはまた、VRT(Video-Relation-Tag)やVRV(Video-Relation-Video)タスクのような、複数の新しいビデオ推論タスクも提供する。
さらに,本データセットに基づいて,映像理解の目的と知識グラフの埋め込みを協調的に最適化するエンド・ツー・エンドモデルを提案する。
総合的な実験により,映像理解と事実知識の組み合わせは,コンテンツベースの映像検索性能に有益であることが示された。
さらに、VRTやVRVのタスクにおいて従来のKGEベースの手法を少なくとも42.36%、HITS@10で17.73%改善した知識グラフの埋め込みも改善されている。
関連論文リスト
- Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - VLEngagement: A Dataset of Scientific Video Lectures for Evaluating
Population-based Engagement [23.078055803229912]
ビデオ講義は、現在のデジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。
科学ビデオ講義における学習者の関与を理解することを目的としたデータと研究は依然として重要なニーズである。
本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴からなる,新しいデータセットである。
論文 参考訳(メタデータ) (2020-11-02T14:20:19Z) - Knowledge-Based Visual Question Answering in Videos [36.23723122336639]
我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
論文 参考訳(メタデータ) (2020-04-17T02:06:26Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。