論文の概要: REVECA -- Rich Encoder-decoder framework for Video Event CAptioner
- arxiv url: http://arxiv.org/abs/2206.09178v1
- Date: Sat, 18 Jun 2022 11:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 06:23:55.812324
- Title: REVECA -- Rich Encoder-decoder framework for Video Event CAptioner
- Title(参考訳): REVECA -- Video Event Captioner用のリッチエンコーダデコーダフレームワーク
- Authors: Jaehyuk Heo, YongGi Jeong, Sunwoo Kim, Jaehee Kim, Pilsung Kang
- Abstract要約: 本稿では,CVPR 2022で開催されているLong-Form Video Understanding Workshopにおいて,ジェネリック境界イベントキャプションチャレンジで使用されるアプローチについて述べる。
我々はビデオイベントキャピタ(REVECA)のためのリッチデコーダフレームワークを設計し、ビデオから空間的・時間的情報を利用してイベント境界に対応するキャプションを生成する。
- 参考スコア(独自算出の注目度): 4.198496695955565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe an approach used in the Generic Boundary Event Captioning
challenge at the Long-Form Video Understanding Workshop held at CVPR 2022. We
designed a Rich Encoder-decoder framework for Video Event CAptioner (REVECA)
that utilizes spatial and temporal information from the video to generate a
caption for the corresponding the event boundary. REVECA uses frame position
embedding to incorporate information before and after the event boundary.
Furthermore, it employs features extracted using the temporal segment network
and temporal-based pairwise difference method to learn temporal information. A
semantic segmentation mask for the attentional pooling process is adopted to
learn the subject of an event. Finally, LoRA is applied to fine-tune the image
encoder to enhance the learning efficiency. REVECA yielded an average score of
50.97 on the Kinetics-GEBC test data, which is an improvement of 10.17 over the
baseline method. Our code is available in https://github.com/TooTouch/REVECA.
- Abstract(参考訳): 本稿では,cvpr 2022で開催される長期ビデオ理解ワークショップにおいて,汎用境界イベントキャプションチャレンジで使用されるアプローチについて述べる。
我々はビデオイベントキャピタ(REVECA)のためのリッチエンコーダデコーダフレームワークを設計し、ビデオから空間的・時間的情報を利用してイベント境界に対応するキャプションを生成する。
REVECAは、イベント境界の前後に情報を組み込むためにフレーム位置埋め込みを使用する。
さらに、時間セグメントネットワークと時間ベースのペアワイズ差分法を用いて抽出した特徴を用いて、時間情報学習を行う。
イベントの主題を学習するために、注意プーリングプロセスのためのセマンティックセグメンテーションマスクが採用される。
最後に、LoRAを用いて画像エンコーダの微調整を行い、学習効率を向上させる。
REVECAはKinetics-GEBCテストデータの平均スコアを50.97とし、ベースライン法よりも10.17に改善した。
私たちのコードはhttps://github.com/TooTouch/REVECAで利用可能です。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Video + CLIP Baseline for Ego4D Long-term Action Anticipation [50.544635516455116]
Video + CLIPフレームワークは、CLIPとビデオエンコーダのSlowfastネットワークという、大規模にトレーニング済みのペアイメージテキストモデルを使用している。
両エンコーダから得られる特徴は相補的であり,長期動作予測のタスクにおいて,Ego4Dのベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-01T17:57:28Z) - End-to-End Compressed Video Representation Learning for Generic Event
Boundary Detection [31.31508043234419]
イベント境界検出のためのエンドツーエンド圧縮ビデオ表現学習を提案する。
まず最初にConvNetを使って、GOPのIフレームの特徴を抽出します。
その後、Pフレームの特徴表現を計算するために、軽量な空間チャネル圧縮エンコーダが設計された。
ビデオシーケンスのイベント境界を決定するために,時間的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:27:48Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Hierarchical Memory Decoding for Video Captioning [43.51506421744577]
メモリネットワーク(MemNet)は、長期情報を保存する利点がある。
MemNetはビデオキャプションにあまり使われていない。
本稿では,ビデオキャプションのための新しいメモリデコーダを提案する。
論文 参考訳(メタデータ) (2020-02-27T02:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。