Fugu-MT 論文翻訳(概要): Generating Templated Caption for Video Grounding

論文の概要: Generating Templated Caption for Video Grounding

arxiv url: http://arxiv.org/abs/2301.05997v1
Date: Sun, 15 Jan 2023 02:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-18 17:47:27.288849
Title: Generating Templated Caption for Video Grounding
Title（参考訳）: ビデオグラウンド用テンプレートキャプションの生成
Authors: Hongxiang Li, Meng Cao, Xuxin Cheng, Zhihong Zhu, Yaowei Li, Yuexian Zou
Abstract要約: ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションのEmphsparsityジレンマを無視していた。本稿では,本論文で定義したテンプレート付きキャプションであるジェネラルアクションを記述できるキャプションの提供により,性能が大幅に向上することを示す。
参考スコア（独自算出の注目度）: 54.46067948276649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video grounding aims to locate a moment of interest matching the given query sentence from an untrimmed video. Previous works ignore the \emph{sparsity dilemma} in video annotations, which fails to provide the context information between potential events and query sentences in the dataset. In this paper, we contend that providing easily available captions which describe general actions \ie, templated captions defined in our paper, will significantly boost the performance. To this end, we propose a Templated Caption Network (TCNet) for video grounding. Specifically, we first introduce dense video captioning to generate dense captions, and then obtain templated captions by Non-Templated Caption Suppression (NTCS). To utilize templated captions better, we propose Caption Guided Attention (CGA) project the semantic relations between templated captions and query sentences into temporal space and fuse them into visual representations. Considering the gap between templated captions and ground truth, we propose Asymmetric Dual Matching Supervised Contrastive Learning (ADMSCL) for constructing more negative pairs to maximize cross-modal mutual information. Without bells and whistles, extensive experiments on three public datasets (\ie, ActivityNet Captions, TACoS and ActivityNet-CG) demonstrate that our method significantly outperforms state-of-the-art methods.
Abstract（参考訳）: ビデオグラウンディングは、未編集のビデオから与えられたクエリ文にマッチする興味のある瞬間を見つけることを目的としている。以前の作業では、ビデオアノテーションの「emph{sparsity dilemma}」を無視しており、潜在的なイベントとデータセットのクエリ文の間のコンテキスト情報の提供に失敗している。本稿では,本論文で定義したテンプレート付きキャプションであるジェネラルアクションを記述可能なキャプションの提供により,性能が大幅に向上することを示す。そこで本稿では,ビデオグラウンドのためのテンプレートキャプションネットワーク(TCNet)を提案する。具体的には,まず,高密度キャプションを生成するために高密度キャプションを導入し,非テンプレートキャプション抑圧(NTCS)によりテンプレートキャプションを得る。テンプレート付きキャプションをよりよく活用するために,テンプレート付きキャプションとクエリ文間の意味的関係を時間空間に反映し,それらを視覚表現に融合させるCGA(Caption Guided Attention)プロジェクトを提案する。テンプレート付き字幕と接地真理のギャップを考慮し、よりネガティブなペアを構築し、相互情報を最大化するための非対称デュアルマッチング監視コントラスト学習(ADMSCL)を提案する。ベルやホイッスルがなければ,3つの公開データセット(\ie, ActivityNet Captions, TACoS, ActivityNet-CG)の広範な実験により,我々の手法が最先端の手法よりも優れていることが示された。

関連論文リスト

TA-Prompting: Enhancing Video Large Language Models for Dense Video Captioning via Temporal Anchors [40.48528326378281]
デンスビデオキャプションは、入力ビデオ全体の時間的局所化イベントを解釈し、記述することを目的としている。近年の最先端技術は,ビデオデータに詳細なモーメント記述を提供するために,大規模言語モデル(LLM)を活用している。本稿では,TA-Promptingを提案する。TA-Promptingはテンポラルアンカーを介し,イベントを正確にローカライズし,ビデオLLMに時間対応のビデオイベント理解を促す。
論文参考訳（メタデータ） (2026-01-06T10:45:53Z)
Captioning for Text-Video Retrieval via Dual-Group Direct Preference Optimization [30.445325065182868]
補助キャプションは、しばしばビデオ理解を強化するために使われ、モダリティ間のギャップを埋める。本稿では,検索関連スコアを用いた字幕生成を直接最適化する検索フレームワークである$textbfCaRe-DPOを提案する。本研究では,CaRe-DPOが補助知識を効果的に活用して検索のためのきめ細かいキャプションを生成することにより,検索性能を著しく向上することを示す。
論文参考訳（メタデータ） (2025-09-20T07:36:53Z)
Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文参考訳（メタデータ） (2025-07-22T22:09:00Z)
Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文参考訳（メタデータ） (2023-12-01T23:56:00Z)
Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文参考訳（メタデータ） (2023-06-13T01:42:18Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Tell me what you see: A zero-shot action recognition method based on natural language descriptions [3.136605193634262]
ビデオから意味情報を抽出するビデオキャプション手法を提案する。私たちの知る限りでは、ビデオとラベルの両方を記述文で表現するのはこれが初めてです。複数のテキストデータセット上でパラフレージングタスクで事前訓練されたBERTベースの埋め込みを用いた共有意味空間を構築する。
論文参考訳（メタデータ） (2021-12-18T17:44:07Z)
Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。 SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。 2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文参考訳（メタデータ） (2021-12-02T09:24:45Z)
Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。 2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文参考訳（メタデータ） (2021-07-23T20:04:01Z)
Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文参考訳（メタデータ） (2020-08-06T04:09:03Z)
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文参考訳（メタデータ） (2020-03-08T04:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。