Fugu-MT 論文翻訳(概要): Dual-Level Decoupled Transformer for Video Captioning

論文の概要: Dual-Level Decoupled Transformer for Video Captioning

arxiv url: http://arxiv.org/abs/2205.03039v1
Date: Fri, 6 May 2022 06:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-09 13:25:51.212790
Title: Dual-Level Decoupled Transformer for Video Captioning
Title（参考訳）: ビデオキャプション用デュアルレベルデカップリングトランス
Authors: Yiqi Gao, Xinglin Hou, Wei Suo, Mengyang Sun, Tiezheng Ge, Yuning Jiang and Peng Wang
Abstract要約: ビデオキャプションは、ビデオの意味概念を理解し、記述文を生成することを目的としている。 MathcalD2$はデュアルレベルの視覚分離型トランスフォーマーパイプラインである。 emph(i)をビデオ時間表現に用い,その過程を「第1空間時間」パラダイムに分離する。
参考スコア（独自算出の注目度）: 15.193977761440404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video captioning aims to understand the spatio-temporal semantic concept of the video and generate descriptive sentences. The de-facto approach to this task dictates a text generator to learn from \textit{offline-extracted} motion or appearance features from \textit{pre-trained} vision models. However, these methods may suffer from the so-called \textbf{\textit{"couple"}} drawbacks on both \textit{video spatio-temporal representation} and \textit{sentence generation}. For the former, \textbf{\textit{"couple"}} means learning spatio-temporal representation in a single model(3DCNN), resulting the problems named \emph{disconnection in task/pre-train domain} and \emph{hard for end-to-end training}. As for the latter, \textbf{\textit{"couple"}} means treating the generation of visual semantic and syntax-related words equally. To this end, we present $\mathcal{D}^{2}$ - a dual-level decoupled transformer pipeline to solve the above drawbacks: \emph{(i)} for video spatio-temporal representation, we decouple the process of it into "first-spatial-then-temporal" paradigm, releasing the potential of using dedicated model(\textit{e.g.} image-text pre-training) to connect the pre-training and downstream tasks, and makes the entire model end-to-end trainable. \emph{(ii)} for sentence generation, we propose \emph{Syntax-Aware Decoder} to dynamically measure the contribution of visual semantic and syntax-related words. Extensive experiments on three widely-used benchmarks (MSVD, MSR-VTT and VATEX) have shown great potential of the proposed $\mathcal{D}^{2}$ and surpassed the previous methods by a large margin in the task of video captioning.
Abstract（参考訳）: ビデオキャプションは、ビデオの時空間意味概念を理解し、記述文を生成することを目的としている。このタスクに対するデファクトアプローチは、テキストジェネレータが \textit{offline-extracted} の動きや、 \textit{pre-trained} ビジョンモデルからの外観特徴から学ぶように指示する。しかし、これらの手法は \textit{video spatio-temporal representation} と \textit{sentence generation} の両方において、いわゆる \textbf{\textit{"couple"}} の欠点を被ることがある。前者にとって、 \textbf{\textit{"couple"}} とは、単一のモデル(3dcnn)で時空間表現を学ぶことを意味する。後者については、textbf{\textit{"couple"}} は視覚的意味論と構文関連語の生成を等しく扱うことを意味する。この目的のために、上記の欠点を解決するために、$\mathcal{D}^{2}$というデュアルレベルデカップリングトランスフォーマーパイプラインを提示する。 i) ビデオ時空間表現において,その過程を「第1時空間」パラダイムに分離し,事前学習タスクと下流タスクを接続するために専用モデル(\textit{e.} image-text pre-training)を使用することの可能性を公開する。 \emph{ 文生成のために,視覚的意味論と構文関連単語の寄与を動的に測定するために,emph{Syntax-Aware Decoder}を提案する。広範に使用されている3つのベンチマーク(MSVD, MSR-VTT, VATEX)の大規模な実験は、提案された$\mathcal{D}^{2}$の大きな可能性を示し、ビデオキャプションのタスクにおいて、従来の手法をはるかに上回っている。

関連論文リスト

Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。 SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文参考訳（メタデータ） (2025-06-28T13:30:36Z)
MedUnA: Language guided Unsupervised Adaptation of Vision-Language Models for Medical Image Classification [14.725941791069852]
本稿では,2段階の学習:適応事前学習と教師なし学習を構成するアンダーラインMedical UnderlineUnsupervised UnderlineAdaptation (textttMedUnA)を提案する。胸部X線像,眼底画像,皮膚病変画像の3種類のデータモダリティを用いたtextttMedUnA の評価を行った。
論文参考訳（メタデータ） (2024-09-03T09:25:51Z)
Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。 rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文参考訳（メタデータ） (2024-05-22T04:34:36Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。 ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文参考訳（メタデータ） (2023-10-05T17:55:19Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文参考訳（メタデータ） (2023-05-15T07:12:19Z)
Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文参考訳（メタデータ） (2023-03-15T03:54:43Z)
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。 15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文参考訳（メタデータ） (2022-12-30T04:27:01Z)
Contrastive Learning of Semantic and Visual Representations for Text Tracking [22.817884815010856]
本稿では,意味的および視覚的表現のコントラスト学習による映像テキストの追跡について検討する。本稿では,Semantic and Visual Representations (SVRep) を用いたエンドツーエンドのビデオテキストトラッカーを提案する。 SVRepはResNet-18のバックボーンで$rm ID_F1$ of $textbf65.9%$を達成している。
論文参考訳（メタデータ） (2021-12-30T09:22:13Z)
Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文参考訳（メタデータ） (2021-11-29T11:01:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。