論文の概要: Query-based Video Summarization with Pseudo Label Supervision
- arxiv url: http://arxiv.org/abs/2307.01945v1
- Date: Tue, 4 Jul 2023 22:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:41:57.676145
- Title: Query-based Video Summarization with Pseudo Label Supervision
- Title(参考訳): 擬似ラベルによるクエリに基づくビデオ要約
- Authors: Jia-Hong Huang, Luka Murn, Marta Mrak, Marcel Worring
- Abstract要約: 手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 19.229722872058055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing datasets for manually labelled query-based video summarization are
costly and thus small, limiting the performance of supervised deep video
summarization models. Self-supervision can address the data sparsity challenge
by using a pretext task and defining a method to acquire extra data with pseudo
labels to pre-train a supervised deep model. In this work, we introduce
segment-level pseudo labels from input videos to properly model both the
relationship between a pretext task and a target task, and the implicit
relationship between the pseudo label and the human-defined label. The pseudo
labels are generated based on existing human-defined frame-level labels. To
create more accurate query-dependent video summaries, a semantics booster is
proposed to generate context-aware query representations. Furthermore, we
propose mutual attention to help capture the interactive information between
visual and textual modalities. Three commonly-used video summarization
benchmarks are used to thoroughly validate the proposed approach. Experimental
results show that the proposed video summarization algorithm achieves
state-of-the-art performance.
- Abstract(参考訳): 手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットはコストがかかり、小さくなり、教師付きディープビデオ要約モデルの性能が制限される。
セルフスーパービジョンは、プリテキストタスクを使い、擬似ラベルで余分なデータを取得し、教師付き深層モデルを事前学習する方法を定義することで、データスパーシティチャレンジに対処することができる。
本研究では,入力映像からのセグメントレベルの擬似ラベルを導入し,プリテキストタスクと対象タスクの関係と,擬似ラベルと人間定義ラベルとの暗黙の関係を適切にモデル化する。
擬似ラベルは、既存のフレームレベルラベルに基づいて生成される。
より正確なクエリ依存のビデオ要約を作成するために、コンテキスト対応のクエリ表現を生成するセマンティックスブースターを提案する。
さらに,視覚とテキストの対話的情報を取り込むための相互注意を提案する。
3つの一般的なビデオ要約ベンチマークを用いて提案手法を徹底的に検証する。
実験の結果,提案手法は最先端の性能を実現することがわかった。
関連論文リスト
- Your Interest, Your Summaries: Query-Focused Long Video Summarization [0.6041235048439966]
本稿では,ユーザクエリとビデオ要約を密接に関連付けることを目的とした,クエリ中心のビデオ要約に対するアプローチを提案する。
本稿では,本課題のために設計された新しいアプローチであるFCSNA-QFVS(FCSNA-QFVS)を提案する。
論文 参考訳(メタデータ) (2024-10-17T23:37:58Z) - Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Learning to Summarize Videos by Contrasting Clips [1.3999481573773074]
ビデオ要約は、オリジナルに近いストーリーをナレーションするビデオの一部を選択することを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに重点を置いている。
両質問に対する回答として,コントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:55:30Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。