論文の概要: VLCap: Vision-Language with Contrastive Learning for Coherent Video
Paragraph Captioning
- arxiv url: http://arxiv.org/abs/2206.12972v1
- Date: Sun, 26 Jun 2022 20:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 05:17:01.046796
- Title: VLCap: Vision-Language with Contrastive Learning for Coherent Video
Paragraph Captioning
- Title(参考訳): VLCap:コヒーレントビデオパラグラフキャプションのためのコントラスト学習によるビジョンランゲージ
- Authors: Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater,
Khoa Luu, Ngan Le
- Abstract要約: 我々は、視覚と言語相互作用を含む人間の知覚過程を利用して、未編集ビデオのコヒーレントな項記述を生成する。
本研究では,2つの視覚的特徴,すなわち,シーン全体のグローバルな視覚的内容を取得する視覚的モダリティと,人間と非人間の両方のシーン要素の記述を抽出する言語的モダリティを提案する。
- 参考スコア(独自算出の注目度): 8.676412113725561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we leverage the human perceiving process, that involves vision
and language interaction, to generate a coherent paragraph description of
untrimmed videos. We propose vision-language (VL) features consisting of two
modalities, i.e., (i) vision modality to capture global visual content of the
entire scene and (ii) language modality to extract scene elements description
of both human and non-human objects (e.g. animals, vehicles, etc), visual and
non-visual elements (e.g. relations, activities, etc). Furthermore, we propose
to train our proposed VLCap under a contrastive learning VL loss. The
experiments and ablation studies on ActivityNet Captions and YouCookII datasets
show that our VLCap outperforms existing SOTA methods on both accuracy and
diversity metrics.
- Abstract(参考訳): 本稿では,映像のコヒーレントな記述を生成するために,視覚と言語相互作用を含む人間の知覚過程を活用する。
本稿では2つのモードからなる視覚言語(VL)機能を提案する。
(i)全シーンのグローバルな視覚的内容と視覚的モダリティ
二 人間及び非人間オブジェクト(動物、車両等)、視覚及び非視覚要素(関係、活動等)のシーン要素を抽出するための言語モダリティ
さらに,提案するVLCapを,対照的な学習VL損失下で訓練することを提案する。
ActivityNet CaptionsとYouCookIIデータセットの実験とアブレーション研究は、VLCapが既存のSOTAメソッドよりも精度と多様性の両方で優れていることを示している。
関連論文リスト
- Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Vision-and-Language Pretrained Models: A Survey [3.270244666687303]
本稿では,視覚言語事前学習モデルにおける主要な進歩について概説する。
まず、言語と視覚データエンコーディング法について論じ、次に主流のVLPM構造をコアコンテンツとして提示する。
論文 参考訳(メタデータ) (2022-04-15T07:33:06Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。