論文の概要: Detection-Fusion for Knowledge Graph Extraction from Videos
- arxiv url: http://arxiv.org/abs/2501.00136v1
- Date: Mon, 30 Dec 2024 20:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:26.853358
- Title: Detection-Fusion for Knowledge Graph Extraction from Videos
- Title(参考訳): 映像からの知識グラフ抽出のための検出フュージョン
- Authors: Taniya Das, Louis Mahon, Thomas Lukasiewicz,
- Abstract要約: 本稿では,知識グラフを用いた動画アノテート手法を提案する。
具体的には,この課題に対するディープラーニングモデルを提案する。
また,知識グラフ構築に背景知識を組み込むためのモデルの拡張も提案する。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: One of the challenging tasks in the field of video understanding is extracting semantic content from video inputs. Most existing systems use language models to describe videos in natural language sentences, but this has several major shortcomings. Such systems can rely too heavily on the language model component and base their output on statistical regularities in natural language text rather than on the visual contents of the video. Additionally, natural language annotations cannot be readily processed by a computer, are difficult to evaluate with performance metrics and cannot be easily translated into a different natural language. In this paper, we propose a method to annotate videos with knowledge graphs, and so avoid these problems. Specifically, we propose a deep-learning-based model for this task that first predicts pairs of individuals and then the relations between them. Additionally, we propose an extension of our model for the inclusion of background knowledge in the construction of knowledge graphs.
- Abstract(参考訳): ビデオ理解の分野で難しい課題の1つは、ビデオ入力からセマンティックコンテンツを抽出することである。
既存のシステムのほとんどは、自然言語の文でビデオを記述するために言語モデルを使用しているが、いくつかの大きな欠点がある。
このようなシステムは、ビデオの視覚的内容ではなく、言語モデルコンポーネントに強く依存し、その出力を自然言語テキストの統計的規則性に基づく。
さらに、自然言語アノテーションはコンピュータで簡単に処理することができず、パフォーマンス指標で評価することは困難であり、異なる自然言語に容易に変換できない。
本稿では,知識グラフを用いた動画アノテート手法を提案する。
具体的には,まず個人のペアを予測し,その間の関係を推定する,ディープラーニングに基づくモデルを提案する。
さらに,知識グラフ構築に背景知識を取り入れたモデルの拡張を提案する。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Exploring External Knowledge for Accurate modeling of Visual and
Language Problems [2.7190267444272056]
この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。
これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。
まず外部知識を抽出し,元のモデルと統合する手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T02:01:50Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Knowledge Graph Extraction from Videos [46.31652453979874]
本稿では,ビデオから知識グラフを抽出するタスクを提案し,その内容の知識グラフとして記述する。
このタスクにはデータセットが存在しないため、ビデオに自然言語を付加したデータセットから始まる、それらを自動生成するメソッドも含んでいます。
提案手法を用いてMSVDとMSR-VTTの2つのデータセットであるMSVD*とMSR-VTT*について報告する。
論文 参考訳(メタデータ) (2020-07-20T12:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。