論文の概要: SACT: Self-Aware Multi-Space Feature Composition Transformer for
Multinomial Attention for Video Captioning
- arxiv url: http://arxiv.org/abs/2006.14262v1
- Date: Thu, 25 Jun 2020 09:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 02:38:47.226749
- Title: SACT: Self-Aware Multi-Space Feature Composition Transformer for
Multinomial Attention for Video Captioning
- Title(参考訳): SACT:ビデオキャプションのための多項アテンションのための自己認識多空間特徴量変換器
- Authors: Chiranjib Sur
- Abstract要約: 特徴長が長くなるにつれて、関連する内容の捕集を改善するための規定を含めることがますます重要になる。
本研究では,多項注意(MultAtt)を生成可能な自己認識型構成変換器(SACT)を新たに導入した。
本研究では,高密度映像キャプションのための自己認識合成変換器モデルを提案し,この手法をActivityNetやYouCookIIなどのベンチマークデータセットに適用する。
- 参考スコア(独自算出の注目度): 9.89901717499058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning works on the two fundamental concepts, feature detection and
feature composition. While modern day transformers are beneficial in composing
features, they lack the fundamental problems of selecting and understanding of
the contents. As the feature length increases, it becomes increasingly
important to include provisions for improved capturing of the pertinent
contents. In this work, we have introduced a new concept of Self-Aware
Composition Transformer (SACT) that is capable of generating Multinomial
Attention (MultAtt) which is a way of generating distributions of various
combinations of frames. Also, multi-head attention transformer works on the
principle of combining all possible contents for attention, which is good for
natural language classification, but has limitations for video captioning.
Video contents have repetitions and require parsing of important contents for
better content composition. In this work, we have introduced SACT for more
selective attention and combined them for different attention heads for better
capturing of the usable contents for any applications. To address the problem
of diversification and encourage selective utilization, we propose the
Self-Aware Composition Transformer model for dense video captioning and apply
the technique on two benchmark datasets like ActivityNet and YouCookII.
- Abstract(参考訳): ビデオキャプションは、特徴検出と特徴合成という2つの基本的な概念で機能する。
現代のトランスフォーマーは機能を構成する上で有益であるが、コンテンツの選択と理解に関する根本的な問題が欠けている。
特徴長が大きくなるにつれて、関連するコンテンツの捕獲を改善するための規定を含めることがますます重要になる。
本研究では,フレームの様々な組み合わせの分布を生成する方法である多項アテンション(MultAtt)を生成することができる自己認識型コンポジショントランス (SACT) の概念を導入した。
また、マルチヘッドアテンショントランスフォーマーは、自然言語の分類には適しているが、ビデオキャプションに制限がある、すべてのコンテンツを組み合わせて注意を向ける原理に基づいている。
ビデオコンテンツには繰り返しがあり、コンテンツ構成を改善するために重要なコンテンツを解析する必要がある。
本研究では、より選択的な注意のためにSACTを導入し、それらを異なる注意ヘッドに組み合わせて、任意のアプリケーションで使用可能なコンテンツをよりよくキャプチャする。
本稿では,多角化の問題に対処し,選択的利用を促進するため,高精細ビデオキャプションのための自己認識合成トランスフォーマーモデルを提案し,activitynetやyoucookiiといった2つのベンチマークデータセットに適用する。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Exploration of Visual Features and their weighted-additive fusion for
Video Captioning [0.7388859384645263]
ビデオキャプションは、自然言語を使ってビデオ内のイベントを記述するモデルに挑戦する一般的なタスクである。
本研究では,最先端の畳み込みニューラルネットワークから派生した様々な視覚特徴表現を用いて,高レベルの意味的文脈をキャプチャする能力について検討する。
論文 参考訳(メタデータ) (2021-01-14T07:21:13Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。