論文の概要: It's Just Another Day: Unique Video Captioning by Discriminative Prompting
- arxiv url: http://arxiv.org/abs/2410.11702v1
- Date: Tue, 15 Oct 2024 15:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:06.515459
- Title: It's Just Another Day: Unique Video Captioning by Discriminative Prompting
- Title(参考訳): 差別的プロンプティングによるユニークなビデオキャプション
- Authors: Toby Perrett, Tengda Han, Dima Damen, Andrew Zisserman,
- Abstract要約: 同じキャプションを持つ複数のクリップが与えられた場合、各クリップに対して、そのキャプションをユニークに識別する新しいキャプションを生成する。
CDPが生成したキャプションは、エゴセントリックなビデオでは15%改善し、タイムループ映画では10%改善した。
- 参考スコア(独自算出の注目度): 70.99367779336256
- License:
- Abstract: Long videos contain many repeating actions, events and shots. These repetitions are frequently given identical captions, which makes it difficult to retrieve the exact desired clip using a text search. In this paper, we formulate the problem of unique captioning: Given multiple clips with the same caption, we generate a new caption for each clip that uniquely identifies it. We propose Captioning by Discriminative Prompting (CDP), which predicts a property that can separate identically captioned clips, and use it to generate unique captions. We introduce two benchmarks for unique captioning, based on egocentric footage and timeloop movies - where repeating actions are common. We demonstrate that captions generated by CDP improve text-to-video R@1 by 15% for egocentric videos and 10% in timeloop movies.
- Abstract(参考訳): 長いビデオには、多くの繰り返しアクション、イベント、ショットが含まれています。
これらの繰り返しは、しばしば同じキャプションが与えられるため、テキスト検索を使用して、正確な所望のクリップを検索することは困難である。
本稿では,同じキャプションを持つ複数のクリップが与えられた場合,そのキャプションを一意に識別する各クリップに対して,新しいキャプションを生成するという,ユニークなキャプションの問題を定式化する。
同一キャプションを分離できる特性を予測し,それを用いて独自のキャプションを生成するCDP(Captioning by Discriminative Prompting)を提案する。
我々は,エゴセントリックな映像とタイムループ映画に基づく,ユニークなキャプションのための2つのベンチマークを紹介した。
CDPが生成したキャプションは、エゴセントリックなビデオでは15%改善し、タイムループ映画では10%改善した。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - MICap: A Unified Model for Identity-aware Movie Descriptions [16.287294191608893]
空白字幕を付与した場合に,ID認識キャプション生成やFITBをシームレスに切り替えることのできる,新しい単一ステージアプローチを提案する。
私たちのモデルであるMICap(Movie-Identity Captioner)は、FITBとフルキャプション生成のトレーニングの恩恵を受ける、共有自動回帰デコーダを使用します。
論文 参考訳(メタデータ) (2024-05-19T08:54:12Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Learning Audio-Video Modalities from Image Captions [62.772232865072745]
テキストビデオとテキストオーディオ検索における大きな課題は、大規模なトレーニングデータがないことである。
画像キャプションデータセットからビデオクリップへのキャプションを手作業なしで転送する新しいビデオマイニングパイプラインを提案する。
このデータに基づくマルチモーダル変換モデルによるトレーニングは、ビデオ検索やビデオキャプションの競合性能、マッチング、さらには20倍のクリップでHowTo100Mの事前トレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-01T19:48:18Z) - Syntax Customized Video Captioning by Imitating Exemplar Sentences [90.98221715705435]
SCVC(Syntax Customized Video Captioning)の新たなタスクについて紹介する。
SCVCは、ビデオの内容を意味的に記述するだけでなく、与えられた先行文を構文的に模倣する1つのキャプションを生成することを目的としている。
本稿では,構文解析と意味論的コヒーレントなビデオキャプションを生成するためのモデル機能を示す。
論文 参考訳(メタデータ) (2021-12-02T09:08:09Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。