論文の概要: CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning
- arxiv url: http://arxiv.org/abs/2111.15162v1
- Date: Tue, 30 Nov 2021 06:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:08:07.341800
- Title: CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning
- Title(参考訳): CLIPがビデオキャプタを発表:属性認識表現学習が正確なキャプタリングを促進する
- Authors: Bang Yang and Yuexian Zou
- Abstract要約: ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。
本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
- 参考スコア(独自算出の注目度): 34.46948978082648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For video captioning, "pre-training and fine-tuning" has become a de facto
paradigm, where ImageNet Pre-training (INP) is usually used to help encode the
video content, and a task-oriented network is fine-tuned from scratch to cope
with caption generation. Comparing INP with the recently proposed CLIP
(Contrastive Language-Image Pre-training), this paper investigates the
potential deficiencies of INP for video captioning and explores the key to
generating accurate descriptions. Specifically, our empirical study on INP vs.
CLIP shows that INP makes video caption models tricky to capture attributes'
semantics and sensitive to irrelevant background information. By contrast,
CLIP's significant boost in caption quality highlights the importance of
attribute-aware representation learning. We are thus motivated to introduce
Dual Attribute Prediction, an auxiliary task requiring a video caption model to
learn the correspondence between video content and attributes and the
co-occurrence relations between attributes. Extensive experiments on benchmark
datasets demonstrate that our approach enables better learning of
attribute-aware representations, bringing consistent improvements on models
with different architectures and decoding algorithms.
- Abstract(参考訳): ビデオキャプションでは、「事前トレーニングと微調整」がデファクトパラダイムとなり、通常はimagenet pre-training (inp) がビデオコンテンツのエンコードに使われ、タスク指向ネットワークがスクラッチから微調整されてキャプション生成に対応している。
InPと最近提案されたCLIP(Contrastive Language- Image Pre-training)を比較し,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
特に,INP vs. CLIPに関する実証研究では,映像キャプションモデルが属性のセマンティクスを捉えやすく,無関係な背景情報に敏感であることを示す。
対照的に、CLIPのキャプション品質の大幅な向上は属性認識表現学習の重要性を強調している。
そこで本研究では,映像コンテンツと属性の対応関係と属性間の共起関係を学習するためにビデオキャプションモデルが必要となる,二重属性予測の導入を動機付ける。
ベンチマークデータセットに関する大規模な実験により、我々のアプローチは属性認識表現の学習を向上し、異なるアーキテクチャとデコードアルゴリズムを持つモデルに一貫した改善をもたらすことを示した。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Learning CLIP Guided Visual-Text Fusion Transformer for Video-based
Pedestrian Attribute Recognition [23.748227536306295]
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
ビデオベースPARを視覚言語融合問題として定式化し,事前学習された大規模モデルCLIPを用いて,映像フレームの機能埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-04-20T05:18:28Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。