論文の概要: Zero-Shot Video Captioning with Evolving Pseudo-Tokens
- arxiv url: http://arxiv.org/abs/2207.11100v1
- Date: Fri, 22 Jul 2022 14:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:14:00.508310
- Title: Zero-Shot Video Captioning with Evolving Pseudo-Tokens
- Title(参考訳): 擬似トークンを進化させるゼロショットビデオキャプション
- Authors: Yoad Tewel, Yoav Shalev, Roy Nadler, Idan Schwartz, Lior Wolf
- Abstract要約: 本稿では,GPT-2言語モデルとCLIP画像テキストマッチングモデルという,凍結した2つのネットワークを利用するゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに高い平均マッチングスコアを持つ文を生成するために、言語モデルを決定するために使用される。
実験の結果, 生成したキャプションはコヒーレントであり, 現実世界の知識を広範囲に表すことができた。
- 参考スコア(独自算出の注目度): 79.16706829968673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a zero-shot video captioning method that employs two frozen
networks: the GPT-2 language model and the CLIP image-text matching model. The
matching score is used to steer the language model toward generating a sentence
that has a high average matching score to a subset of the video frames. Unlike
zero-shot image captioning methods, our work considers the entire sentence at
once. This is achieved by optimizing, during the generation process, part of
the prompt from scratch, by modifying the representation of all other tokens in
the prompt, and by repeating the process iteratively, gradually improving the
specificity and comprehensiveness of the generated sentence. Our experiments
show that the generated captions are coherent and display a broad range of
real-world knowledge. Our code is available at:
https://github.com/YoadTew/zero-shot-video-to-text
- Abstract(参考訳): 本稿では,gpt-2言語モデルとクリップ画像テキストマッチングモデルという2つの凍結型ネットワークを用いたゼロショットビデオキャプション手法を提案する。
マッチングスコアは、ビデオフレームのサブセットに対して高い平均マッチングスコアを持つ文を生成するための言語モデルを制御するために使用される。
ゼロショット画像キャプション法とは違って,文全体を一度に検討する。
これは、生成プロセス中にプロンプトの一部をスクラッチから最適化し、プロンプト内の他のすべてのトークンの表現を変更し、反復的にプロセスを繰り返し、生成した文の特異性と包括性を徐々に改善することで達成される。
実験の結果,生成したキャプションはコヒーレントであり,実世界の幅広い知識を表現できることがわかった。
私たちのコードは、https://github.com/YoadTew/zero-shot-to-textで利用可能です。
関連論文リスト
- Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。
そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。
実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - METEOR Guided Divergence for Video Captioning [4.601294270277376]
我々は,トークンの置換に耐性のあるビデオキャプションモデルをトレーニングするために,報酬誘導型KLディバージェンスを提案する。
内容完全文と文法音声文の生成におけるHRLエージェントの適合性について,BLEU3,BLEU4,METEORでそれぞれ4.91$,2.23$,10.80$を得た。
論文 参考訳(メタデータ) (2022-12-20T23:30:47Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Diverse and Styled Image Captioning Using SVD-Based Mixture of Recurrent
Experts [5.859294565508523]
特徴を抽出する画像エンコーダと、抽出された特徴の集合を単語の集合に埋め込む再帰ネットワークと、得られた単語をスタイリングされた文として結合する文生成器とを含む新しいキャプションモデルを開発する。
提案するキャプションモデルでは,ラベル外付けを必要とせずに,多種多様な画像キャプションを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-07T11:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。