Fugu-MT 論文翻訳(概要): Video Summarisation with Incident and Context Information using Generative AI

論文の概要: Video Summarisation with Incident and Context Information using Generative AI

arxiv url: http://arxiv.org/abs/2501.04764v1
Date: Wed, 08 Jan 2025 18:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.305392
Title: Video Summarisation with Incident and Context Information using Generative AI
Title（参考訳）: 生成AIを用いたインシデントとコンテキスト情報による映像要約
Authors: Ulindu De Silva, Leon Fernando, Kalinga Bandara, Rashmika Nawaratne,
Abstract要約: 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した映像解析手法を提案する。我々のツールは、ユーザー定義クエリのテキスト要約をカスタマイズして提供することを目的としており、広範なビデオデータセットの中で集中的な洞察を提供する。
参考スコア（独自算出の注目度）: 0.5522795407400668
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of video content production has led to vast amounts of data, posing substantial challenges in terms of analysis efficiency and resource utilization. Addressing this issue calls for the development of robust video analysis tools. This paper proposes a novel approach leveraging Generative Artificial Intelligence (GenAI) to facilitate streamlined video analysis. Our tool aims to deliver tailored textual summaries of user-defined queries, offering a focused insight amidst extensive video datasets. Unlike conventional frameworks that offer generic summaries or limited action recognition, our method harnesses the power of GenAI to distil relevant information, enhancing analysis precision and efficiency. Employing YOLO-V8 for object detection and Gemini for comprehensive video and text analysis, our solution achieves heightened contextual accuracy. By combining YOLO with Gemini, our approach furnishes textual summaries extracted from extensive CCTV footage, enabling users to swiftly navigate and verify pertinent events without the need for exhaustive manual review. The quantitative evaluation revealed a similarity of 72.8%, while the qualitative assessment rated an accuracy of 85%, demonstrating the capability of the proposed method.
Abstract（参考訳）: ビデオコンテンツ制作の普及は膨大な量のデータをもたらし、分析効率と資源利用の面で大きな課題を招いている。この問題に対処するためには、堅牢なビデオ分析ツールの開発が必要である。本稿では,ジェネレーティブ・人工知能(GenAI)を利用した映像解析手法を提案する。我々のツールは、ユーザー定義クエリのテキスト要約をカスタマイズして提供することを目的としており、広範なビデオデータセットの中で集中的な洞察を提供する。汎用的な要約や限られた行動認識を提供する従来のフレームワークとは異なり、我々の手法はGenAIの力を利用して関連する情報を排除し、分析精度と効率を向上させる。オブジェクト検出にYOLO-V8,包括的ビデオおよびテキスト解析にGeminiを用い,文脈精度の向上を実現した。 YOLOとGeminiを組み合わせることで,広範なCCTV映像から抽出したテキスト要約を作成できる。定量的評価では72.8%の類似性を示し, 定性評価では85%の精度を示し, 提案手法の有効性を示した。

関連論文リスト

Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文参考訳（メタデータ） (2025-05-23T16:37:36Z)
Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
Large Language Models for Video Surveillance Applications [11.297664744056735]
本稿では,ジェネレーティブ・人工知能(GenAI)を用いた視覚言語モデルによる概念実証について述べる。本ツールでは,ユーザ定義クエリに基づいて,カスタマイズしたテキスト要約を生成する。
論文参考訳（メタデータ） (2025-01-06T08:57:44Z)
InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文参考訳（メタデータ） (2024-11-25T14:27:50Z)
Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Enhancing Video Summarization with Context Awareness [9.861215740353247]
ビデオ要約は、ビデオの本質をキャプチャするテクニック、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが不足している。本稿では,映像データ構造と情報を活用して情報要約を生成する教師なし手法を提案する。
論文参考訳（メタデータ） (2024-04-06T09:08:34Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文参考訳（メタデータ） (2024-01-15T15:42:39Z)
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning [10.486585276898472]
テキストデータの徹底的な理解は、マルチモーダルビデオ解析タスクの基本的な要素である。目的タスクに応じて文成分の意義を理解することで,モデルの性能を高めることができると仮定する。本稿では,コンポーネントの相対的重要性を計算し,映像言語タスクの改善に利用するために,弱教師付き重要度推定モジュールを提案する。
論文参考訳（メタデータ） (2023-12-10T02:03:51Z)
Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文参考訳（メタデータ） (2023-11-27T18:59:58Z)
Multimodal Short Video Rumor Detection System Based on Contrastive Learning [3.4192832062683842]
中国のショートビデオプラットフォームは、フェイクニュースの拡散の場として徐々に肥大化してきた。短いビデオの噂を区別することは、大量の情報と共有機能のために大きな課題となる。本研究グループは,マルチモーダルな特徴融合と外部知識の統合を包含する方法論を提案する。
論文参考訳（メタデータ） (2023-04-17T16:07:00Z)
Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文参考訳（メタデータ） (2021-05-26T13:12:46Z)
Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文参考訳（メタデータ） (2020-10-25T10:48:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。