論文の概要: CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning
- arxiv url: http://arxiv.org/abs/2111.15162v1
- Date: Tue, 30 Nov 2021 06:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:08:07.341800
- Title: CLIP Meets Video Captioners: Attribute-Aware Representation Learning
Promotes Accurate Captioning
- Title(参考訳): CLIPがビデオキャプタを発表:属性認識表現学習が正確なキャプタリングを促進する
- Authors: Bang Yang and Yuexian Zou
- Abstract要約: ImageNet Pre-Training (INP) は通常、ビデオコンテンツをエンコードするために使用され、タスク指向ネットワークはスクラッチから微調整され、キャプション生成に対処する。
本稿では,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
本稿では,映像コンテンツと属性の対応を学習するために,映像キャプションモデルを必要とする補助タスクであるDual Attribute Predictionを紹介する。
- 参考スコア(独自算出の注目度): 34.46948978082648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For video captioning, "pre-training and fine-tuning" has become a de facto
paradigm, where ImageNet Pre-training (INP) is usually used to help encode the
video content, and a task-oriented network is fine-tuned from scratch to cope
with caption generation. Comparing INP with the recently proposed CLIP
(Contrastive Language-Image Pre-training), this paper investigates the
potential deficiencies of INP for video captioning and explores the key to
generating accurate descriptions. Specifically, our empirical study on INP vs.
CLIP shows that INP makes video caption models tricky to capture attributes'
semantics and sensitive to irrelevant background information. By contrast,
CLIP's significant boost in caption quality highlights the importance of
attribute-aware representation learning. We are thus motivated to introduce
Dual Attribute Prediction, an auxiliary task requiring a video caption model to
learn the correspondence between video content and attributes and the
co-occurrence relations between attributes. Extensive experiments on benchmark
datasets demonstrate that our approach enables better learning of
attribute-aware representations, bringing consistent improvements on models
with different architectures and decoding algorithms.
- Abstract(参考訳): ビデオキャプションでは、「事前トレーニングと微調整」がデファクトパラダイムとなり、通常はimagenet pre-training (inp) がビデオコンテンツのエンコードに使われ、タスク指向ネットワークがスクラッチから微調整されてキャプション生成に対応している。
InPと最近提案されたCLIP(Contrastive Language- Image Pre-training)を比較し,映像キャプションにおけるINPの潜在的な欠陥について検討し,正確な記述を生成するための鍵を探る。
特に,INP vs. CLIPに関する実証研究では,映像キャプションモデルが属性のセマンティクスを捉えやすく,無関係な背景情報に敏感であることを示す。
対照的に、CLIPのキャプション品質の大幅な向上は属性認識表現学習の重要性を強調している。
そこで本研究では,映像コンテンツと属性の対応関係と属性間の共起関係を学習するためにビデオキャプションモデルが必要となる,二重属性予測の導入を動機付ける。
ベンチマークデータセットに関する大規模な実験により、我々のアプローチは属性認識表現の学習を向上し、異なるアーキテクチャとデコードアルゴリズムを持つモデルに一貫した改善をもたらすことを示した。
関連論文リスト
- Learning CLIP Guided Visual-Text Fusion Transformer for Video-based
Pedestrian Attribute Recognition [23.748227536306295]
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
ビデオベースPARを視覚言語融合問題として定式化し,事前学習された大規模モデルCLIPを用いて,映像フレームの機能埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-04-20T05:18:28Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。