論文の概要: Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion
- arxiv url: http://arxiv.org/abs/2308.06685v1
- Date: Sun, 13 Aug 2023 05:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:04:10.007943
- Title: Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion
- Title(参考訳): デュアルグラフとゲーテッドフュージョンに基づくアグリゲーション特徴によるビデオキャプション
- Authors: Yutao Jin, Bin Liu, Jing Wang
- Abstract要約: ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
- 参考スコア(独自算出の注目度): 6.096411752534632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of video captioning models aims at translating the content of
videos by using accurate natural language. Due to the complex nature inbetween
object interaction in the video, the comprehensive understanding of
spatio-temporal relations of objects remains a challenging task. Existing
methods often fail in generating sufficient feature representations of video
content. In this paper, we propose a video captioning model based on dual
graphs and gated fusion: we adapt two types of graphs to generate feature
representations of video content and utilize gated fusion to further understand
these different levels of information. Using a dual-graphs model to generate
appearance features and motion features respectively can utilize the content
correlation in frames to generate various features from multiple perspectives.
Among them, dual-graphs reasoning can enhance the content correlation in frame
sequences to generate advanced semantic features; The gated fusion, on the
other hand, aggregates the information in multiple feature representations for
comprehensive video content understanding. The experiments conducted on worldly
used datasets MSVD and MSR-VTT demonstrate state-of-the-art performance of our
proposed approach.
- Abstract(参考訳): ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
ビデオにおけるオブジェクト間の相互作用の複雑な性質のため、オブジェクトの時空間関係の包括的理解は依然として難しい課題である。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
本稿では,二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。我々は2種類のグラフを用いて映像コンテンツの特徴表現を生成し,ゲート融合を用いてこれらの異なる情報のレベルをさらに理解する。
デュアルグラフモデルを用いて外観特徴と動作特徴をそれぞれ生成し、フレーム内のコンテンツ相関を利用して複数の視点から様々な特徴を生成する。
これらのうち、デュアルグラフ推論はフレーム列内のコンテンツ相関を強化し、高度な意味的特徴を生成することができる。
MSR-VTT と MSVD を用いた実験により,提案手法の最先端性能を実証した。
関連論文リスト
- GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning [4.290482766926506]
Video paragraph Captioning (VPC) は、ビデオ内の重要な出来事を要約する段落を生成することを目的としている。
本フレームワークは,多モーダル情報とコモンセンス知識の相互作用をキャプチャする「ビデオ固有」時間グラフと,特定のテーマの単語間の相関を表す「テーマグラフ」という2つのグラフを構築する。
結果はベンチマークデータセット間で優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-12T06:01:00Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action
Segmentation in Videos [0.40778318140713216]
本研究ではSemantic2Graphというグラフ構造化手法を導入し,ビデオの長期依存性をモデル化する。
我々は,映像行動における長期的・短期的な意味的関係を捉えるために,対応するエッジ重みを伴う肯定的・否定的な意味的エッジを設計した。
論文 参考訳(メタデータ) (2022-09-13T00:01:23Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Exploration of Visual Features and their weighted-additive fusion for
Video Captioning [0.7388859384645263]
ビデオキャプションは、自然言語を使ってビデオ内のイベントを記述するモデルに挑戦する一般的なタスクである。
本研究では,最先端の畳み込みニューラルネットワークから派生した様々な視覚特徴表現を用いて,高レベルの意味的文脈をキャプチャする能力について検討する。
論文 参考訳(メタデータ) (2021-01-14T07:21:13Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。