論文の概要: Knowledge Graph Extraction from Videos
- arxiv url: http://arxiv.org/abs/2007.10040v1
- Date: Mon, 20 Jul 2020 12:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 12:39:17.405310
- Title: Knowledge Graph Extraction from Videos
- Title(参考訳): ビデオからの知識グラフ抽出
- Authors: Louis Mahon, Eleonora Giunchiglia, Bowen Li, Thomas Lukasiewicz
- Abstract要約: 本稿では,ビデオから知識グラフを抽出するタスクを提案し,その内容の知識グラフとして記述する。
このタスクにはデータセットが存在しないため、ビデオに自然言語を付加したデータセットから始まる、それらを自動生成するメソッドも含んでいます。
提案手法を用いてMSVDとMSR-VTTの2つのデータセットであるMSVD*とMSR-VTT*について報告する。
- 参考スコア(独自算出の注目度): 46.31652453979874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nearly all existing techniques for automated video annotation (or captioning)
describe videos using natural language sentences. However, this has several
shortcomings: (i) it is very hard to then further use the generated natural
language annotations in automated data processing, (ii) generating natural
language annotations requires to solve the hard subtask of generating
semantically precise and syntactically correct natural language sentences,
which is actually unrelated to the task of video annotation, (iii) it is
difficult to quantitatively measure performance, as standard metrics (e.g.,
accuracy and F1-score) are inapplicable, and (iv) annotations are
language-specific. In this paper, we propose the new task of knowledge graph
extraction from videos, i.e., producing a description in the form of a
knowledge graph of the contents of a given video. Since no datasets exist for
this task, we also include a method to automatically generate them, starting
from datasets where videos are annotated with natural language. We then
describe an initial deep-learning model for knowledge graph extraction from
videos, and report results on MSVD* and MSR-VTT*, two datasets obtained from
MSVD and MSR-VTT using our method.
- Abstract(参考訳): ビデオの自動アノテーション(またはキャプション)は、ほとんどすべての既存の技術で自然言語によるビデオを記述する。
しかし、いくつかの欠点がある。
(i) 自動データ処理において生成した自然言語アノテーションをさらに利用するのは難しい。
(ii)自然言語アノテーションの生成は、意味的に正確で構文的に正しい自然言語文を生成するという難しいサブタスクを解決しなければならない。
(iii)標準メトリクス(精度やf1-scoreなど)が適用できないため、性能を定量的に測定することは困難である。
(iv)アノテーションは言語固有のものです。
本稿では,ビデオから知識グラフを抽出する新しいタスク,すなわち,与えられたビデオの内容の知識グラフの形で記述を作成することを提案する。
このタスクにはデータセットが存在しないので、ビデオに自然言語をアノテートしたデータセットから、自動生成するメソッドも含んでいます。
次に、ビデオから知識グラフを抽出するための初期ディープラーニングモデルを記述し、MSVD*とMSR-VTT*の2つのデータセットであるMSVD*とMSR-VTT*について報告する。
関連論文リスト
- Detection-Fusion for Knowledge Graph Extraction from Videos [49.1574468325115]
本稿では,知識グラフを用いた動画アノテート手法を提案する。
具体的には,この課題に対するディープラーニングモデルを提案する。
また,知識グラフ構築に背景知識を組み込むためのモデルの拡張も提案する。
論文 参考訳(メタデータ) (2024-12-30T20:26:11Z) - Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension [4.164728134421114]
Referring Expression(REC)は、自然言語表現によってシーン内の特定のオブジェクトを識別することを目的としており、視覚言語理解において重要なトピックである。
このタスクの最先端のメソッドは、一般的に高価で手動でラベル付けされたアノテーションを必要とするディープラーニングに基づいている。
テキストと視覚の両方を考慮したRECタスクのための人工データを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:08:36Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Enhancing Gait Video Analysis in Neurodegenerative Diseases by Knowledge Augmentation in Vision Language Model [10.742625681420279]
大規模な事前学習型視覚言語モデル(VLM)に基づいて,患者の歩行映像の視覚的,テキスト的,数値的表現を学習し,改善する。
結果から,本モデルはビデオベース分類タスクにおいて最先端の手法よりも優れるだけでなく,学習したクラス固有のテキスト特徴を自然言語記述に包括的にデコードすることがわかった。
論文 参考訳(メタデータ) (2024-03-20T17:03:38Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。