論文の概要: Video Summarisation with Incident and Context Information using Generative AI
- arxiv url: http://arxiv.org/abs/2501.04764v1
- Date: Wed, 08 Jan 2025 18:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:22.099874
- Title: Video Summarisation with Incident and Context Information using Generative AI
- Title(参考訳): 生成AIを用いたインシデントとコンテキスト情報による映像要約
- Authors: Ulindu De Silva, Leon Fernando, Kalinga Bandara, Rashmika Nawaratne,
- Abstract要約: 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した映像解析手法を提案する。
我々のツールは、ユーザー定義クエリのテキスト要約をカスタマイズして提供することを目的としており、広範なビデオデータセットの中で集中的な洞察を提供する。
- 参考スコア(独自算出の注目度): 0.5522795407400668
- License:
- Abstract: The proliferation of video content production has led to vast amounts of data, posing substantial challenges in terms of analysis efficiency and resource utilization. Addressing this issue calls for the development of robust video analysis tools. This paper proposes a novel approach leveraging Generative Artificial Intelligence (GenAI) to facilitate streamlined video analysis. Our tool aims to deliver tailored textual summaries of user-defined queries, offering a focused insight amidst extensive video datasets. Unlike conventional frameworks that offer generic summaries or limited action recognition, our method harnesses the power of GenAI to distil relevant information, enhancing analysis precision and efficiency. Employing YOLO-V8 for object detection and Gemini for comprehensive video and text analysis, our solution achieves heightened contextual accuracy. By combining YOLO with Gemini, our approach furnishes textual summaries extracted from extensive CCTV footage, enabling users to swiftly navigate and verify pertinent events without the need for exhaustive manual review. The quantitative evaluation revealed a similarity of 72.8%, while the qualitative assessment rated an accuracy of 85%, demonstrating the capability of the proposed method.
- Abstract(参考訳): ビデオコンテンツ制作の普及は膨大な量のデータをもたらし、分析効率と資源利用の面で大きな課題を招いている。
この問題に対処するためには、堅牢なビデオ分析ツールの開発が必要である。
本稿では,ジェネレーティブ・人工知能(GenAI)を利用した映像解析手法を提案する。
我々のツールは、ユーザー定義クエリのテキスト要約をカスタマイズして提供することを目的としており、広範なビデオデータセットの中で集中的な洞察を提供する。
汎用的な要約や限られた行動認識を提供する従来のフレームワークとは異なり、我々の手法はGenAIの力を利用して関連する情報を排除し、分析精度と効率を向上させる。
オブジェクト検出にYOLO-V8,包括的ビデオおよびテキスト解析にGeminiを用い,文脈精度の向上を実現した。
YOLOとGeminiを組み合わせることで,広範なCCTV映像から抽出したテキスト要約を作成できる。
定量的評価では72.8%の類似性を示し, 定性評価では85%の精度を示し, 提案手法の有効性を示した。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。
ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。
本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:08:34Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - Leveraging Generative Language Models for Weakly Supervised Sentence
Component Analysis in Video-Language Joint Learning [10.486585276898472]
テキストデータの徹底的な理解は、マルチモーダルビデオ解析タスクの基本的な要素である。
目的タスクに応じて文成分の意義を理解することで,モデルの性能を高めることができると仮定する。
本稿では,コンポーネントの相対的重要性を計算し,映像言語タスクの改善に利用するために,弱教師付き重要度推定モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-10T02:03:51Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Multimodal Short Video Rumor Detection System Based on Contrastive
Learning [3.4192832062683842]
中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。
短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。
本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
論文 参考訳(メタデータ) (2023-04-17T16:07:00Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。