Fugu-MT 論文翻訳(概要): Learning text-to-video retrieval from image captioning

論文の概要: Learning text-to-video retrieval from image captioning

arxiv url: http://arxiv.org/abs/2404.17498v1
Date: Fri, 26 Apr 2024 15:56:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 12:35:26.098280
Title: Learning text-to-video retrieval from image captioning
Title（参考訳）: 画像キャプションによるテキスト・ビデオ検索の学習
Authors: Lucas Ventura, Cordelia Schmid, Gül Varol,
Abstract要約: 本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
参考スコア（独自算出の注目度）: 59.81537951811595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We describe a protocol to study text-to-video retrieval training with unlabeled videos, where we assume (i) no access to labels for any videos, i.e., no access to the set of ground-truth captions, but (ii) access to labeled images in the form of text. Using image expert models is a realistic scenario given that annotating images is cheaper therefore scalable, in contrast to expensive video labeling schemes. Recently, zero-shot image experts such as CLIP have established a new strong baseline for video understanding tasks. In this paper, we make use of this progress and instantiate the image experts from two types of models: a text-to-image retrieval model to provide an initial backbone, and image captioning models to provide supervision signal into unlabeled videos. We show that automatically labeling video frames with image captioning allows text-to-video retrieval training. This process adapts the features to the target domain at no manual annotation cost, consequently outperforming the strong zero-shot CLIP baseline. During training, we sample captions from multiple video frames that best match the visual content, and perform a temporal pooling over frame representations by scoring frames according to their relevance to each caption. We conduct extensive ablations to provide insights and demonstrate the effectiveness of this simple framework by outperforming the CLIP zero-shot baselines on text-to-video retrieval on three standard datasets, namely ActivityNet, MSR-VTT, and MSVD.
Abstract（参考訳）: 未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 (i)ビデオのラベルへのアクセス、すなわち、接頭辞のセットへのアクセスは行わないが、 (ii)テキスト形式でラベル付き画像にアクセスする。画像エキスパートモデルを使用することは、高価なビデオラベリング方式とは対照的に、アノテート画像がより安価でスケーラブルであることを考えると、現実的なシナリオである。近年、CLIPのようなゼロショット画像の専門家は、ビデオ理解タスクのための新しい強力なベースラインを確立している。本稿では、この進歩を利用して、初期バックボーンを提供するテキスト・ツー・イメージ検索モデルと、ラベルなしビデオに監視信号を提供する画像キャプションモデルという、2種類のモデルから画像専門家をインスタンス化する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。このプロセスは、手動のアノテーションコストなしでターゲットドメインに機能を適用するため、強いゼロショットCLIPベースラインよりも優れています。トレーニング中、複数のビデオフレームから、視覚的内容に最もよくマッチするキャプションをサンプリングし、各キャプションとの関連性に応じてフレームをスコアリングすることで、フレーム表現上の時間プーリングを行う。我々は,3つの標準データセット(ActivityNet, MSR-VTT, MSVD)において,CLIPゼロショットベースラインよりも高い精度でテキストとビデオの検索を行うことにより,この単純なフレームワークの有効性を実証し,洞察を提供する。

関連論文リスト

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
Fine-Grained Video Captioning through Scene Graph Consolidation [44.30028794237688]
本稿では,動画からフレームレベルのシーングラフを合成し,キャプション生成の中間表現を得るゼロショットビデオキャプション手法を提案する。提案手法は,まず画像VLMを用いてフレームレベルのキャプションを生成し,それらをシーングラフに変換し,これらのグラフを統合し,包括的なビデオレベルの記述を生成する。
論文参考訳（メタデータ） (2025-02-23T03:59:05Z)
Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文参考訳（メタデータ） (2024-11-12T06:44:24Z)
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Videoprompter: an ensemble of foundational models for zero-shot video understanding [113.92958148574228]
視覚言語モデル(VLM)は、視覚特徴とテキストベースのクラスラベル表現の類似点を計算することで、クエリビデオの分類を行う。本稿では、事前学習されたディスクリミVLMと、事前学習された生成ビデオ・テキストモデルと、テキスト・テキストモデルを組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-23T19:45:46Z)
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文参考訳（メタデータ） (2023-10-07T19:32:55Z)
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。 MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2023-08-15T08:54:25Z)
CapText: Large Language Model-based Caption Generation From Image Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文参考訳（メタデータ） (2023-06-01T02:40:44Z)
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data [18.479220305684837]
画像キャプションの最近の進歩により、並列なビデオテキストデータなしで高品質な映像モデルを事前訓練することが可能になった。既存のHowTo100M ASRキャプションよりも,イメージキャプションの擬似ラベルが事前学習に有効であることを示す。
論文参考訳（メタデータ） (2023-04-04T19:11:05Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文参考訳（メタデータ） (2022-10-10T22:48:08Z)
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-06-21T13:30:33Z)
Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文参考訳（メタデータ） (2020-07-29T08:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。