論文の概要: DemaFormer: Damped Exponential Moving Average Transformer with
Energy-Based Modeling for Temporal Language Grounding
- arxiv url: http://arxiv.org/abs/2312.02549v1
- Date: Tue, 5 Dec 2023 07:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:29:11.841545
- Title: DemaFormer: Damped Exponential Moving Average Transformer with
Energy-Based Modeling for Temporal Language Grounding
- Title(参考訳): DemaFormer:時相言語接地のためのエネルギーモデルを用いた減衰指数移動平均変圧器
- Authors: Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Cong-Duy Nguyen, See-Kiong
Ng, Luu Anh Tuan
- Abstract要約: 時間的言語グラウンディングは、自然言語クエリに意味的に対応するビデオモーメントをローカライズすることを目指している。
モーメントクエリ分布を明示的に学習するためのエネルギーモデルフレームワークを提案する。
また、指数移動平均と学習可能な減衰係数を利用するトランスフォーマーベースの新しいアーキテクチャであるDemaFormerを提案する。
- 参考スコア(独自算出の注目度): 32.45280955448672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Language Grounding seeks to localize video moments that semantically
correspond to a natural language query. Recent advances employ the attention
mechanism to learn the relations between video moments and the text query.
However, naive attention might not be able to appropriately capture such
relations, resulting in ineffective distributions where target video moments
are difficult to separate from the remaining ones. To resolve the issue, we
propose an energy-based model framework to explicitly learn moment-query
distributions. Moreover, we propose DemaFormer, a novel Transformer-based
architecture that utilizes exponential moving average with a learnable damping
factor to effectively encode moment-query inputs. Comprehensive experiments on
four public temporal language grounding datasets showcase the superiority of
our methods over the state-of-the-art baselines.
- Abstract(参考訳): 時間的言語グラウンディングは、自然言語クエリに意味的に対応するビデオモーメントをローカライズすることを目指している。
近年,ビデオモーメントとテキストクエリの関係を知るための注意機構が採用されている。
しかし, ナイーブな注意はそのような関係を適切に捉えられず, 対象の映像モーメントが残りのものから切り離すのが困難な非効率な分布をもたらす可能性がある。
この問題を解決するために,モーメントクエリ分布を明示的に学習するエネルギーモデルフレームワークを提案する。
さらに,学習可能な減衰係数を持つ指数関数的移動平均を用いてモーメントクエリ入力を効果的にエンコードする,新しいトランスベースアーキテクチャであるdemaformerを提案する。
4つの公開時間言語接地データセットに関する包括的な実験は、最先端のベースラインよりも優れた方法を示している。
関連論文リスト
- Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。