論文の概要: Knowledge Graph Extraction from Videos
- arxiv url: http://arxiv.org/abs/2007.10040v1
- Date: Mon, 20 Jul 2020 12:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:39:17.405310
- Title: Knowledge Graph Extraction from Videos
- Title(参考訳): ビデオからの知識グラフ抽出
- Authors: Louis Mahon, Eleonora Giunchiglia, Bowen Li, Thomas Lukasiewicz
- Abstract要約: 本稿では,ビデオから知識グラフを抽出するタスクを提案し,その内容の知識グラフとして記述する。
このタスクにはデータセットが存在しないため、ビデオに自然言語を付加したデータセットから始まる、それらを自動生成するメソッドも含んでいます。
提案手法を用いてMSVDとMSR-VTTの2つのデータセットであるMSVD*とMSR-VTT*について報告する。
- 参考スコア(独自算出の注目度): 46.31652453979874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nearly all existing techniques for automated video annotation (or captioning)
describe videos using natural language sentences. However, this has several
shortcomings: (i) it is very hard to then further use the generated natural
language annotations in automated data processing, (ii) generating natural
language annotations requires to solve the hard subtask of generating
semantically precise and syntactically correct natural language sentences,
which is actually unrelated to the task of video annotation, (iii) it is
difficult to quantitatively measure performance, as standard metrics (e.g.,
accuracy and F1-score) are inapplicable, and (iv) annotations are
language-specific. In this paper, we propose the new task of knowledge graph
extraction from videos, i.e., producing a description in the form of a
knowledge graph of the contents of a given video. Since no datasets exist for
this task, we also include a method to automatically generate them, starting
from datasets where videos are annotated with natural language. We then
describe an initial deep-learning model for knowledge graph extraction from
videos, and report results on MSVD* and MSR-VTT*, two datasets obtained from
MSVD and MSR-VTT using our method.
- Abstract(参考訳): ビデオの自動アノテーション(またはキャプション)は、ほとんどすべての既存の技術で自然言語によるビデオを記述する。
しかし、いくつかの欠点がある。
(i) 自動データ処理において生成した自然言語アノテーションをさらに利用するのは難しい。
(ii)自然言語アノテーションの生成は、意味的に正確で構文的に正しい自然言語文を生成するという難しいサブタスクを解決しなければならない。
(iii)標準メトリクス(精度やf1-scoreなど)が適用できないため、性能を定量的に測定することは困難である。
(iv)アノテーションは言語固有のものです。
本稿では,ビデオから知識グラフを抽出する新しいタスク,すなわち,与えられたビデオの内容の知識グラフの形で記述を作成することを提案する。
このタスクにはデータセットが存在しないので、ビデオに自然言語をアノテートしたデータセットから、自動生成するメソッドも含んでいます。
次に、ビデオから知識グラフを抽出するための初期ディープラーニングモデルを記述し、MSVD*とMSR-VTT*の2つのデータセットであるMSVD*とMSR-VTT*について報告する。
関連論文リスト
- HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [77.02631712558251]
本稿では,大言語モデル(LLM)の機能を活用して,ビデオに合わせた細粒度な映像記述を実現することを提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
評価の結果,得られたキャプションは,テキスト・ビデオ検索のための多くのベンチマーク・データセットよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。