論文の概要: TCR: Short Video Title Generation and Cover Selection with Attention
Refinement
- arxiv url: http://arxiv.org/abs/2304.12561v1
- Date: Tue, 25 Apr 2023 04:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:58:13.592422
- Title: TCR: Short Video Title Generation and Cover Selection with Attention
Refinement
- Title(参考訳): TCR:ショートビデオのタイトル生成とアテンションリファインメントによるカバー選択
- Authors: Yakun Yu, Jiuding Yang, Weidong Guo, Hui Liu, Yu Xu, and Di Niu
- Abstract要約: ショートビデオ・タイトル・ジェネレーション(SVTG)のためのタグ生成とアテンション・リファインメント(TCR)法によるカバー選択を提案する。
精細化手順は、モデルトレーニングを洗練させるために、各サンプル内の高品質なサンプルと、非常に関連性の高いフレームとテキストトークンを段階的に選択する。
本手法はタイトル生成における既存のビデオキャプション手法よりも優れており,ノイズの多い実世界のショートビデオに対して,より優れたカバーを選択することができる。
- 参考スコア(独自算出の注目度): 19.586471670187535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widespread popularity of user-generated short videos, it becomes
increasingly challenging for content creators to promote their content to
potential viewers. Automatically generating appealing titles and covers for
short videos can help grab viewers' attention. Existing studies on video
captioning mostly focus on generating factual descriptions of actions, which do
not conform to video titles intended for catching viewer attention.
Furthermore, research for cover selection based on multimodal information is
sparse. These problems motivate the need for tailored methods to specifically
support the joint task of short video title generation and cover selection
(TG-CS) as well as the demand for creating corresponding datasets to support
the studies. In this paper, we first collect and present a real-world dataset
named Short Video Title Generation (SVTG) that contains videos with appealing
titles and covers. We then propose a Title generation and Cover selection with
attention Refinement (TCR) method for TG-CS. The refinement procedure
progressively selects high-quality samples and highly relevant frames and text
tokens within each sample to refine model training. Extensive experiments show
that our TCR method is superior to various existing video captioning methods in
generating titles and is able to select better covers for noisy real-world
short videos.
- Abstract(参考訳): ユーザー生成ショートビデオの普及に伴い、コンテンツクリエイターがコンテンツを潜在的視聴者に宣伝することはますます困難になっている。
短いビデオのタイトルやカバーを自動的に生成することで、視聴者の注意を引くことができる。
既存のビデオキャプションの研究は主に、視聴者の注意を引くためのビデオタイトルに適合しない行動の事実記述を生成することに焦点を当てている。
さらに,マルチモーダル情報に基づくカバー選択の研究は少ない。
これらの問題は、短いビデオタイトル生成とカバーセレクション(TG-CS)のジョイントタスクを具体的にサポートするための調整された方法の必要性と、研究を支援するための対応するデータセットの作成の必要性を動機付けている。
本稿では,まず,魅力あるタイトルとカバー付きビデオを含む,SVTG(Short Video Title Generation)という実世界のデータセットを収集し,提示する。
そこで我々は,TG-CS の注意再定義 (TCR) 手法を用いたタイトル生成とカバー選択を提案する。
精錬手順は、モデルトレーニングを洗練させるために、各サンプル内の高品質なサンプルと高関連フレームとテキストトークンを段階的に選択する。
広範にわたる実験により,tcr手法は既存の様々な字幕生成手法より優れており,ノイズの多い実世界のショートビデオに対して,より優れたカバーを選択できることを示した。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。
この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Learning to Summarize Videos by Contrasting Clips [1.3999481573773074]
ビデオ要約は、オリジナルに近いストーリーをナレーションするビデオの一部を選択することを目的としている。
既存のビデオ要約アプローチのほとんどは手作りのラベルに重点を置いている。
両質問に対する回答として,コントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-01-12T18:55:30Z) - Visual Subtitle Feature Enhanced Video Outline Generation [23.831220964676973]
ビデオ理解タスク,すなわちビデオアウトライン生成(VOG)を導入する。
VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。
ビデオアウトライン生成モデル(VSENet)を提案する。
論文 参考訳(メタデータ) (2022-08-24T05:26:26Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。