論文の概要: Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding
- arxiv url: http://arxiv.org/abs/2310.12724v1
- Date: Thu, 19 Oct 2023 13:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:14:53.184182
- Title: Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding
- Title(参考訳): ディープビデオ理解のためのクエリアウェア・ロングビデオ定位と関係識別
- Authors: Yuanxing Xu, Yuting Wei and Bin Wu
- Abstract要約: Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。
本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
- 参考スコア(独自算出の注目度): 15.697251303126874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge in video and social media content underscores the need for a deeper
understanding of multimedia data. Most of the existing mature video
understanding techniques perform well with short formats and content that
requires only shallow understanding, but do not perform well with long format
videos that require deep understanding and reasoning. Deep Video Understanding
(DVU) Challenge aims to push the boundaries of multimodal extraction, fusion,
and analytics to address the problem of holistically analyzing long videos and
extract useful knowledge to solve different types of queries. This paper
introduces a query-aware method for long video localization and relation
discrimination, leveraging an imagelanguage pretrained model. This model
adeptly selects frames pertinent to queries, obviating the need for a complete
movie-level knowledge graph. Our approach achieved first and fourth positions
for two groups of movie-level queries. Sufficient experiments and final
rankings demonstrate its effectiveness and robustness.
- Abstract(参考訳): ビデオやソーシャルメディアのコンテンツの急増は、マルチメディアデータのより深い理解の必要性を浮き彫りにしている。
既存の成熟したビデオ理解技術のほとんどは、浅い理解だけを必要とする短いフォーマットやコンテンツでうまく機能するが、深い理解と推論を必要とする長いフォーマットビデオではうまく機能しない。
Deep Video Understanding (DVU) Challengeは、多モーダル抽出、融合、分析の境界を推し進め、長いビデオの全体的分析と、さまざまなタイプのクエリの解決に有用な知識の抽出に対処することを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係識別を行うクエリアウェア手法を提案する。
このモデルは、クエリに関連するフレームを明示的に選択し、映画レベルの知識グラフを完全に必要としない。
提案手法は,映画レベル問合せの2つのグループにおいて,第1位と第4位に到達した。
十分な実験と最終ランキングは、その有効性と堅牢性を示している。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - DrVideo: Document Retrieval Based Long Video Understanding [44.34473173458403]
DrVideoは、長いビデオ理解のために設計されたドキュメント検索ベースのシステムである。
まず、長いビデオを粗いテキストベースの長文に変換して、キーフレームを検索し、拡張されたキーフレーム情報で文書を更新する。
その後、エージェントベースの反復ループを使用して、欠落した情報を継続的に検索し、十分な質問関連情報が収集されるまで文書を増補する。
論文 参考訳(メタデータ) (2024-06-18T17:59:03Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。
我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。
実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。