論文の概要: Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding
- arxiv url: http://arxiv.org/abs/2204.01450v1
- Date: Mon, 4 Apr 2022 13:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 12:36:46.511492
- Title: Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding
- Title(参考訳): テンポラルグラウンドでの学習コモンセンス認識モーメントテキストアライメント
- Authors: Ziyue Wu, Junyu Gao, Shucheng Huang, Changsheng Xu
- Abstract要約: 自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 78.71529237748018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding temporal video segments described in natural language queries
effectively and efficiently is a crucial capability needed in
vision-and-language fields. In this paper, we deal with the fast video temporal
grounding (FVTG) task, aiming at localizing the target segment with high speed
and favorable accuracy. Most existing approaches adopt elaborately designed
cross-modal interaction modules to improve the grounding performance, which
suffer from the test-time bottleneck. Although several common space-based
methods enjoy the high-speed merit during inference, they can hardly capture
the comprehensive and explicit relations between visual and textual modalities.
In this paper, to tackle the dilemma of speed-accuracy tradeoff, we propose a
commonsense-aware cross-modal alignment (CCA) framework, which incorporates
commonsense-guided visual and text representations into a complementary common
space for fast video temporal grounding. Specifically, the commonsense concepts
are explored and exploited by extracting the structural semantic information
from a language corpus. Then, a commonsense-aware interaction module is
designed to obtain bridged visual and text features by utilizing the learned
commonsense concepts. Finally, to maintain the original semantic information of
textual queries, a cross-modal complementary common space is optimized to
obtain matching scores for performing FVTG. Extensive results on two
challenging benchmarks show that our CCA method performs favorably against
state-of-the-arts while running at high speed. Our code is available at
https://github.com/ZiyueWu59/CCA.
- Abstract(参考訳): 自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンドすることは、視覚・言語分野において必須の能力である。
本稿では,高速ビデオ時間グラウンド(FVTG)タスクに対処し,高速かつ良好な精度で目標セグメントをローカライズすることを目的とした。
既存のアプローチの多くは、テスト時のボトルネックに苦しむ接地性能を改善するために、精巧に設計されたクロスモーダルインタラクションモジュールを採用している。
いくつかの一般的な空間ベースの手法は推論中に高速の利点を享受するが、視覚とテキストのモダリティの間の包括的かつ明示的な関係を捉えることはほとんどできない。
本稿では,速度-精度トレードオフのジレンマに対処するために,広義の視覚とテキストの表現を相補的な共通空間に組み込んだ,広義のクロスモーダルアライメント(CCA)フレームワークを提案する。
具体的には、言語コーパスから構造意味情報を抽出することで、コモンセンスの概念を探求し、活用する。
次に、学習したコモンセンス概念を利用して、コモンセンス・アウェアインタラクションモジュールを橋渡し視覚とテキストの特徴を得るように設計する。
最後に、テキストクエリの本来の意味情報を維持するために、クロスモーダル補完共通空間を最適化して、fvtgを実行するためのマッチングスコアを得る。
2つの挑戦的ベンチマークの結果から,CCA法は高速走行時の最先端技術に対して良好に動作することが示された。
私たちのコードはhttps://github.com/ziyuewu59/ccaで利用可能です。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Video sentence grounding with temporally global textual knowledge [8.470363694067386]
時間的な文の接地には、自然言語クエリによるビデオモーメントの検索が含まれる。
PIN(Pseudo-query Intermediary Network)を提案する。
論文 参考訳(メタデータ) (2024-04-21T10:41:04Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。