論文の概要: SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing
- arxiv url: http://arxiv.org/abs/2501.07554v1
- Date: Mon, 13 Jan 2025 18:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:46.739986
- Title: SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing
- Title(参考訳): SST-EM:ビデオ編集における意味的・空間的・時間的側面の評価のための高度なメトリクス
- Authors: Varun Biyyala, Bharat Chanderprakash Kathuria, Jialu Li, Youshan Zhang,
- Abstract要約: 本稿では,SST-EM(Semantic, Spatial, and Temporal Evaluation Metric)について紹介する。
SST-EMは,(1)VLMを用いたフレームからのセマンティック抽出,(2)物体検出による主物体追跡,(3)LLMエージェントによる焦点対象の精細化,(4)ビジョン変換器を用いた時間的整合性評価の4つの構成要素から構成される。
- 参考スコア(独自算出の注目度): 12.926309478839652
- License:
- Abstract: Video editing models have advanced significantly, but evaluating their performance remains challenging. Traditional metrics, such as CLIP text and image scores, often fall short: text scores are limited by inadequate training data and hierarchical dependencies, while image scores fail to assess temporal consistency. We present SST-EM (Semantic, Spatial, and Temporal Evaluation Metric), a novel evaluation framework that leverages modern Vision-Language Models (VLMs), Object Detection, and Temporal Consistency checks. SST-EM comprises four components: (1) semantic extraction from frames using a VLM, (2) primary object tracking with Object Detection, (3) focused object refinement via an LLM agent, and (4) temporal consistency assessment using a Vision Transformer (ViT). These components are integrated into a unified metric with weights derived from human evaluations and regression analysis. The name SST-EM reflects its focus on Semantic, Spatial, and Temporal aspects of video evaluation. SST-EM provides a comprehensive evaluation of semantic fidelity and temporal smoothness in video editing. The source code is available in the \textbf{\href{https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git}{GitHub Repository}}.
- Abstract(参考訳): ビデオ編集モデルは大幅に進歩しているが、その性能を評価することは依然として困難である。
CLIPテキストや画像スコアのような従来のメトリクスは、しばしば不足する: テキストスコアは、トレーニングデータと階層的依存関係によって制限されるが、画像スコアは、時間的一貫性を評価するのに失敗する。
SST-EM(Semantic, Spatial, and Temporal Evaluation Metric)は,最新の視覚言語モデル(VLM),オブジェクト検出,時間整合性チェックを活用する新しい評価フレームワークである。
SST-EMは,(1)VLMを用いたフレームからのセマンティック抽出,(2)オブジェクト検出による主物体追跡,(3)LLMエージェントによる焦点対象の精細化,(4)ViTを用いた時間的整合性評価の4つの構成要素から構成される。
これらの成分は、人間の評価と回帰分析から得られた重みを持つ統一された計量に統合される。
SST-EMという名前は、ビデオ評価のセマンティック、空間、時間的な側面に焦点をあてている。
SST-EMはビデオ編集における意味的忠実度と時間的滑らか度を総合的に評価する。
ソースコードは、textbf{\href{https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git}{GitHub Repository}}で公開されている。
関連論文リスト
- Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding [20.906378094998303]
既存のTransformerベースのSTVGアプローチは、単に0を使用するオブジェクトクエリのセットを利用することが多い。
単純さにもかかわらず、これらのゼロオブジェクトクエリは、ターゲット固有の手がかりが欠如しているため、識別対象情報の学習が困難である。
STVG (Target-Aware Transformer for STVG) を新たに導入し,ビデオテキストペアからターゲット固有のキューを探索することで,オブジェクトクエリを適応的に生成する手法を提案する。
論文 参考訳(メタデータ) (2025-02-16T15:38:33Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Context-Guided Spatio-Temporal Video Grounding [22.839160907707885]
本稿では,ビデオ中のオブジェクトの識別インスタンスコンテキストを抽出する,文脈誘導型STVG(CG-STVG)を提案する。
CG-STVGは、テキストクエリにおけるオブジェクト情報と、より正確なターゲットローカライゼーションのためのマイニングされたインスタンス視覚コンテキストからのガイダンスを楽しみます。
HCSTVG-v1/-v2 と VidSTG の3つのベンチマーク実験において、CG-STVG は m_tIoU と m_vIoU で新しい最先端を設定できる。
論文 参考訳(メタデータ) (2024-01-03T07:05:49Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。