論文の概要: ShotVL: Human-Centric Highlight Frame Retrieval via Language Queries
- arxiv url: http://arxiv.org/abs/2412.12675v1
- Date: Tue, 17 Dec 2024 08:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:44.174604
- Title: ShotVL: Human-Centric Highlight Frame Retrieval via Language Queries
- Title(参考訳): ShotVL: 言語クエリによる人中心のハイライトフレーム検索
- Authors: Wangyu Xue, Chen Qian, Jiayi Wu, Yang Zhou, Wentao Liu, Ju Ren, Siming Fan, Yaoxue Zhang,
- Abstract要約: BestShotは、言語クエリーを通じて人間中心のビデオ内のハイライトフレームを見つけることを目的としている。
このベンチマークは、人間の注釈付きハイライトフレーム、詳細なテキスト記述、持続時間ラベリングを組み合わせることで、慎重に構築されている。
ShotVLはBestShotベンチマークでInternVLを52%改善し、THUMOS14ベンチマークで57%改善した。
- 参考スコア(独自算出の注目度): 34.42932478902429
- License:
- Abstract: Existing works on human-centric video understanding typically focus on analyzing specific moment or entire videos. However, many applications require higher precision at the frame level. In this work, we propose a novel task, BestShot, which aims to locate highlight frames within human-centric videos via language queries. This task demands not only a deep semantic comprehension of human actions but also precise temporal localization. To support this task, we introduce the BestShot Benchmark. %The benchmark is meticulously constructed by combining human detection and tracking, potential frame selection based on human judgment, and detailed textual descriptions crafted by human input to ensure precision. The benchmark is meticulously constructed by combining human-annotated highlight frames, detailed textual descriptions and duration labeling. These descriptions encompass three critical elements: (1) Visual content; (2) Fine-grained action; and (3) Human Pose Description. Together, these elements provide the necessary precision to identify the exact highlight frames in videos. To tackle this problem, we have collected two distinct datasets: (i) ShotGPT4o Dataset, which is algorithmically generated by GPT-4o and (ii) Image-SMPLText Dataset, a dataset with large-scale and accurate per-frame pose description leveraging PoseScript and existing pose estimation datasets. Based on these datasets, we present a strong baseline model, ShotVL, fine-tuned from InternVL, specifically for BestShot. We highlight the impressive zero-shot capabilities of our model and offer comparative analyses with existing SOTA models. ShotVL demonstrates a significant 52% improvement over InternVL on the BestShot Benchmark and a notable 57% improvement on the THUMOS14 Benchmark, all while maintaining the SOTA performance in general image classification and retrieval.
- Abstract(参考訳): 人間の中心的なビデオ理解に関する既存の研究は、通常、特定の瞬間やビデオ全体を分析することに重点を置いている。
しかし、多くのアプリケーションはフレームレベルで高い精度を必要とする。
そこで本研究では,言語クエリによる人中心ビデオ中のハイライトフレームの特定を目的とした,新しいタスクBestShotを提案する。
このタスクは、人間の行動の深い意味的理解だけでなく、正確な時間的局所化も要求する。
このタスクをサポートするために、BestShot Benchmarkを紹介します。
このベンチマークは、人間の検出と追跡、人間の判断に基づく潜在的なフレーム選択、そして精度を確保するために人間の入力によって作成された詳細なテキスト記述を組み合わせることで、慎重に構築されている。
このベンチマークは、人間の注釈付きハイライトフレーム、詳細なテキスト記述、持続時間ラベリングを組み合わせることで、慎重に構築されている。
これらの記述は,(1)視覚内容,(2)きめ細かな動作,(3)人文記述の3つの重要な要素を含む。
これらの要素は、ビデオの正確なハイライトフレームを特定するために必要な精度を提供する。
この問題に対処するため、我々は2つの異なるデータセットを収集した。
i) GPT-4oによってアルゴリズム的に生成されるShotGPT4oデータセット
(ii) Image-SMPLText Datasetは、PoseScriptと既存のポーズ推定データセットを活用した、大規模かつ正確なフレーム単位のポーズ記述を持つデータセットである。
これらのデータセットに基づいて、特にBestShotのために、InternVLから微調整された強力なベースラインモデルShotVLを示す。
我々は,モデルが持つ印象的なゼロショット機能を強調し,既存のSOTAモデルとの比較分析を行う。
ShotVLは、BestShotベンチマークではInternVLよりも52%、THUMOS14ベンチマークでは57%、一般的な画像分類と検索ではSOTAのパフォーマンスを維持した。
関連論文リスト
- High-resolution open-vocabulary object 6D pose estimation [30.835921843505123]
Horyonはオープン語彙のVLMベースのアーキテクチャで、見えないオブジェクトの2つのシーン間の相対的なポーズ推定に対処する。
4つのデータセットにまたがるさまざまな未知のオブジェクトをベンチマークで評価する。
論文 参考訳(メタデータ) (2024-06-24T07:53:46Z) - Benchmarking and Improving Detail Image Caption [12.078715675876674]
視覚言語モデル (LVLM) は視覚理解の基本的な課題とされてきた。
本稿では,人間専門家が注釈付けした高品質な評価データセットをキュレートすることで,詳細な画像キャプションタスクのベンチマークを行う。
また、CAPTUREと呼ばれるより信頼性の高いキャプション評価指標も設計する。
論文 参考訳(メタデータ) (2024-05-29T13:54:12Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - CCMB: A Large-scale Chinese Cross-modal Benchmark [46.349966178044184]
我々は、研究コミュニティ向けにCCMBという、大規模で高品質な中国のクロスモーダルベンチマークを構築した。
Zeroには7億5000万のテキスト記述と組み合わせた2億5000万の画像が含まれている。
論文 参考訳(メタデータ) (2022-05-08T13:19:23Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。