論文の概要: Dense Video Captioning Using Unsupervised Semantic Information
- arxiv url: http://arxiv.org/abs/2112.08455v1
- Date: Wed, 15 Dec 2021 20:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:53:49.060535
- Title: Dense Video Captioning Using Unsupervised Semantic Information
- Title(参考訳): 教師なし意味情報を用いたDense Video Captioning
- Authors: Valter Estevam and Rayson Laroca and Helio Pedrini and David Menotti
- Abstract要約: 本稿では,複雑な事象をより単純な事象に分解できるという前提に基づいて,教師なしの視覚情報を学習する手法を提案する。
長いビデオを短いフレームシーケンスに分割し、3次元畳み込みニューラルネットワークで潜在表現を抽出した。
この表現は,視覚的特徴しか持たないシナリオにおいて,高密度映像キャプションタスクの性能をいかに活用できるかを実証する。
- 参考スコア(独自算出の注目度): 2.022555840231001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a method to learn unsupervised semantic visual information based
on the premise that complex events (e.g., minutes) can be decomposed into
simpler events (e.g., a few seconds), and that these simple events are shared
across several complex events. We split a long video into short frame sequences
to extract their latent representation with three-dimensional convolutional
neural networks. A clustering method is used to group representations producing
a visual codebook (i.e., a long video is represented by a sequence of integers
given by the cluster labels). A dense representation is learned by encoding the
co-occurrence probability matrix for the codebook entries. We demonstrate how
this representation can leverage the performance of the dense video captioning
task in a scenario with only visual features. As a result of this approach, we
are able to replace the audio signal in the Bi-Modal Transformer (BMT) method
and produce temporal proposals with comparable performance. Furthermore, we
concatenate the visual signal with our descriptor in a vanilla transformer
method to achieve state-of-the-art performance in captioning compared to the
methods that explore only visual features, as well as a competitive performance
with multi-modal methods. Our code is available at
https://github.com/valterlej/dvcusi.
- Abstract(参考訳): 複雑なイベント(例えば、数分)を単純なイベント(例えば、数秒)に分解し、これらの単純なイベントを複数の複雑なイベント間で共有するという前提に基づいて、教師なしのセマンティックな視覚情報を学ぶ方法を提案する。
長い映像を短いフレームに分割し,その潜在表現を3次元畳み込みニューラルネットワークで抽出した。
クラスタリング手法は、視覚的コードブックを生成する表現をグループ化する(すなわち、長いビデオは、クラスタラベルによって与えられる整数列で表現される)。
コードブックエントリの共起確率行列を符号化して高密度表現を学習する。
この表現は,視覚的特徴しか持たないシナリオにおいて,高密度映像キャプションタスクの性能をいかに活用できるかを実証する。
このアプローチにより, bi-modal transformer (bmt) 法における音声信号の置き換えと, 同等の性能の時間的提案が可能となった。
さらに,視覚特徴のみを探索する手法やマルチモーダル手法との競合性能と比較して,視覚信号をバニラトランス方式で記述子に結合し,キャプションにおける最先端性能を実現する。
私たちのコードはhttps://github.com/valterlej/dvcusiで入手できます。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval [9.899703354116962]
Dense Videoのキャプションは、すべてのイベントを自動的にローカライズし、非トリミングビデオ内でキャプションすることを目的としている。
本稿では,人間の認知情報処理に触発された新しい枠組みを提案する。
我々のモデルは、事前知識を組み込むために外部記憶を利用する。
論文 参考訳(メタデータ) (2024-04-11T09:58:23Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。