Fugu-MT 論文翻訳(概要): The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

論文の概要: The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

arxiv url: http://arxiv.org/abs/2201.08071v1
Date: Thu, 20 Jan 2022 09:10:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 13:34:30.836979
Title: The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions
Title（参考訳）: ビデオにおける時間文接地要素:調査と今後の方向性
Authors: Hao Zhang, Aixin Sun, Wei Jing, Joey Tianyi Zhou
Abstract要約: ビデオの時間文グラウンド(TSGV)は、意味不明のビデオから言語クエリに対応する時間モーメントを検索することを目的としている。本調査では,TSGVの基本概念と今後の研究方向性について概説する。
参考スコア（独自算出の注目度）: 60.54191298092136
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal sentence grounding in videos (TSGV), a.k.a., natural language video localization (NLVL) or video moment retrieval (VMR), aims to retrieve a temporal moment that semantically corresponds to a language query from an untrimmed video. Connecting computer vision and natural language, TSGV has drawn significant attention from researchers in both communities. This survey attempts to provide a summary of fundamental concepts in TSGV and current research status, as well as future research directions. As the background, we present a common structure of functional components in TSGV, in a tutorial style: from feature extraction from raw video and language query, to answer prediction of the target moment. Then we review the techniques for multimodal understanding and interaction, which is the key focus of TSGV for effective alignment between the two modalities. We construct a taxonomy of TSGV techniques and elaborate methods in different categories with their strengths and weaknesses. Lastly, we discuss issues with the current TSGV research and share our insights about promising research directions.
Abstract（参考訳）: ビデオ(tsgv)、すなわち自然言語ビデオローカライゼーション(nlvl)またはビデオモーメント検索(vmr)における時間文グラウンドニングは、未トリミングビデオから言語クエリに意味的に対応する時間モーメントを検索することを目的としている。コンピュータビジョンと自然言語を結びつけることで、TSGVは両方のコミュニティの研究者から大きな注目を集めている。本調査は,tsgvの基本概念と現状,今後の研究方向性について概説する。その背景として,TSGV の機能的コンポーネントの共通構造をチュートリアル形式で提示する: 生のビデオと言語クエリからの機能抽出から,対象モーメントの予測への応答である。次に,2つのモーダル間の効果的なアライメントのためのTSGVの重要な焦点であるマルチモーダル理解とインタラクションの手法を概観する。 TSGVテクニックの分類と,その長所と短所の異なるカテゴリの精巧な手法を構築した。最後に,現在のtsgv研究の問題点を議論し,今後の研究方向性について考察する。

関連論文リスト

Moment Quantization for Video Temporal Grounding [29.081100914208974]
我々は、新しいモーメント量子化に基づくビデオ時間グラウンド法(MQVTG)を提案する。 MQVTGは入力ビデオを様々な離散ベクトルに量子化し、関連するモーメントと無関係なモーメントの識別を強化する。本手法は,関係する特徴を効果的にグループ化し,無関係な特徴を分離し,差別の強化を目標とする。
論文参考訳（メタデータ） (2025-04-03T05:21:14Z)
ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文参考訳（メタデータ） (2024-10-01T08:27:56Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文参考訳（メタデータ） (2023-02-24T10:14:35Z)
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。 15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文参考訳（メタデータ） (2022-12-30T04:27:01Z)
A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文参考訳（メタデータ） (2021-09-16T15:01:46Z)
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文参考訳（メタデータ） (2020-10-13T09:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。