論文の概要: GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning
- arxiv url: http://arxiv.org/abs/2410.09377v1
- Date: Sat, 12 Oct 2024 06:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:44:04.819576
- Title: GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning
- Title(参考訳): GEM-VPC:ビデオパラグラフキャプションのためのグラフ強化マルチモーダル統合
- Authors: Eileen Wang, Caren Han, Josiah Poon,
- Abstract要約: Video paragraph Captioning (VPC) は、ビデオ内の重要な出来事を要約する段落を生成することを目的としている。
本フレームワークは,多モーダル情報とコモンセンス知識の相互作用をキャプチャする「ビデオ固有」時間グラフと,特定のテーマの単語間の相関を表す「テーマグラフ」という2つのグラフを構築する。
結果はベンチマークデータセット間で優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 4.290482766926506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Paragraph Captioning (VPC) aims to generate paragraph captions that summarises key events within a video. Despite recent advancements, challenges persist, notably in effectively utilising multimodal signals inherent in videos and addressing the long-tail distribution of words. The paper introduces a novel multimodal integrated caption generation framework for VPC that leverages information from various modalities and external knowledge bases. Our framework constructs two graphs: a 'video-specific' temporal graph capturing major events and interactions between multimodal information and commonsense knowledge, and a 'theme graph' representing correlations between words of a specific theme. These graphs serve as input for a transformer network with a shared encoder-decoder architecture. We also introduce a node selection module to enhance decoding efficiency by selecting the most relevant nodes from the graphs. Our results demonstrate superior performance across benchmark datasets.
- Abstract(参考訳): Video Paragraph Captioning (VPC) は、ビデオ内の重要な出来事を要約する段落を生成することを目的としている。
近年の進歩にもかかわらず、特にビデオに固有のマルチモーダル信号を効果的に活用し、単語の長い尾の分布に対処する上で、課題は続いている。
本稿では、様々なモダリティや外部知識ベースからの情報を活用した、VPCのための新しいマルチモーダル統合キャプション生成フレームワークを提案する。
本フレームワークは,多モーダル情報とコモンセンス知識の相互作用をキャプチャする「ビデオ固有」時間グラフと,特定のテーマの単語間の相関を表す「テーマグラフ」という2つのグラフを構築する。
これらのグラフは、共有エンコーダ-デコーダアーキテクチャを持つトランスフォーマーネットワークの入力として機能する。
グラフから最も関連性の高いノードを選択することでデコード効率を向上させるノード選択モジュールも導入する。
本結果は,ベンチマークデータセット間での優れた性能を示す。
関連論文リスト
- VideoSAGE: Video Summarization with Graph Representation Learning [9.21019970479227]
本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。
この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。
論文 参考訳(メタデータ) (2024-04-14T15:49:02Z) - MSG-BART: Multi-granularity Scene Graph-Enhanced Encoder-Decoder
Language Model for Video-grounded Dialogue Generation [25.273719615694958]
本稿では,映像情報の統合性を高めるMSG-B-ARTという新しい手法を提案する。
具体的には,グローバルなシーングラフとローカルなシーングラフをエンコーダとデコーダに統合する。
MSG-B-ARTの顕著な優位性を示す3つのビデオ地上対話ベンチマークにおいて,大規模な実験を行った。
論文 参考訳(メタデータ) (2023-09-26T04:23:23Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-30T21:22:35Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。