論文の概要: FullTransNet: Full Transformer with Local-Global Attention for Video Summarization
- arxiv url: http://arxiv.org/abs/2501.00882v1
- Date: Wed, 01 Jan 2025 16:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:32.066628
- Title: FullTransNet: Full Transformer with Local-Global Attention for Video Summarization
- Title(参考訳): FullTransNet:ビデオ要約のためのローカルグローバルアテンション付きフルトランスフォーマー
- Authors: Libin Lan, Lu Jiang, Tianshu Yu, Xiaojuan Liu, Zhongshi He,
- Abstract要約: 本研究は、教師付きビデオ要約を考察し、シーケンス・ツー・シーケンスの学習問題とみなす。
本稿では,全エンコーダ・デコーダ構造を持つトランスフォーマー型アーキテクチャであるFullTransNetを提案する。
提案手法は,SumMeでは54.4%,TVSumでは63.9%のF-Measureを達成できる。
- 参考スコア(独自算出の注目度): 16.134118247239527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video summarization mainly aims to produce a compact, short, informative, and representative synopsis of raw videos, which is of great importance for browsing, analyzing, and understanding video content. Dominant video summarization approaches are generally based on recurrent or convolutional neural networks, even recent encoder-only transformers. We propose using full transformer as an alternative architecture to perform video summarization. The full transformer with an encoder-decoder structure, specifically designed for handling sequence transduction problems, is naturally suitable for video summarization tasks. This work considers supervised video summarization and casts it as a sequence-to-sequence learning problem. Our key idea is to directly apply the full transformer to the video summarization task, which is intuitively sound and effective. Also, considering the efficiency problem, we replace full attention with the combination of local and global sparse attention, which enables modeling long-range dependencies while reducing computational costs. Based on this, we propose a transformer-like architecture, named FullTransNet, which has a full encoder-decoder structure with local-global sparse attention for video summarization. Specifically, both the encoder and decoder in FullTransNet are stacked the same way as ones in the vanilla transformer, and the local-global sparse attention is used only at the encoder side. Extensive experiments on two public multimedia benchmark datasets SumMe and TVSum demonstrate that our proposed model can outperform other video summarization approaches, achieving F-Measures of 54.4% on SumMe and 63.9% on TVSum with relatively lower compute and memory requirements, verifying its effectiveness and efficiency. The code and models are publicly available on GitHub.
- Abstract(参考訳): ビデオ要約は主に、ビデオコンテンツの閲覧、分析、理解において非常に重要である生ビデオのコンパクトで短く、情報的で、代表的な合成を作成することを目的としている。
支配的なビデオ要約アプローチは一般的に、リカレントまたは畳み込みニューラルネットワーク、さらには最近のエンコーダのみのトランスフォーマーに基づいている。
本稿では,ビデオ要約を行うための代替アーキテクチャとしてフルトランスフォーマーを提案する。
エンコーダ・デコーダ構造を持つフルトランスフォーマーは、特にシーケンス変換問題を扱うために設計されており、ビデオ要約タスクに自然に適している。
本研究は、教師付きビデオ要約を考察し、シーケンス・ツー・シーケンスの学習問題とみなす。
私たちのキーとなるアイデアは、ビデオ要約タスクに直接フルトランスフォーマーを適用することです。
また,効率性の問題から,計算コストを低減しつつ,長距離依存をモデル化できる局所的・グローバル的疎外的注意と組み合わせることで,全注意を置き換える。
そこで本研究では,全エンコーダ・デコーダ構造を持つ変換器型アーキテクチャFullTransNetを提案する。
具体的には、FullTransNetのエンコーダとデコーダはバニラ変圧器と同じ方法で積み上げられ、ローカル・グローバル・スパース・アテンションはエンコーダ側でのみ使用される。
SumMeとTVSumの2つの公開マルチメディアベンチマークデータセットに対する大規模な実験により、提案したモデルは、SumMeで54.4%、TVSumで63.9%のF-Measureを達成し、比較的少ない計算とメモリ要求で、他のビデオ要約アプローチより優れ、その有効性と効率を検証できることを示した。
コードとモデルはGitHubで公開されている。
関連論文リスト
- Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - Efficient Convolution and Transformer-Based Network for Video Frame
Interpolation [11.036815066639473]
トランスエンコーダと畳み込み機能を組み合わせた新しい手法を提案する。
このネットワークは、メモリ負荷を50%近く削減し、推論時間中に最大4倍高速に動作させる。
局所相関のモデル化における畳み込みの強さと長距離依存のための変換器の強度を結合したデュアルエンコーダアーキテクチャが導入された。
論文 参考訳(メタデータ) (2023-07-12T20:14:06Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Two-Stream Transformer Architecture for Long Video Understanding [5.001789577362836]
本稿では,静的な画像特徴と時間的文脈的特徴の依存関係をモデル化するために,2ストリームトランスフォーマアーキテクチャを用いた効率的な時空間注意ネットワーク(STAN)を提案する。
提案手法は,1つのGPU上で最大2分間の動画の分類が可能であり,データ効率が良く,複数の長いビデオ理解タスクにおいてSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-08-02T21:03:48Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition [140.66371549815034]
本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
論文 参考訳(メタデータ) (2021-12-09T03:05:19Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。
エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。
本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:04:54Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。