論文の概要: The Elements of Temporal Sentence Grounding in Videos: A Survey and
Future Directions
- arxiv url: http://arxiv.org/abs/2201.08071v1
- Date: Thu, 20 Jan 2022 09:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:34:30.836979
- Title: The Elements of Temporal Sentence Grounding in Videos: A Survey and
Future Directions
- Title(参考訳): ビデオにおける時間文接地要素:調査と今後の方向性
- Authors: Hao Zhang, Aixin Sun, Wei Jing, Joey Tianyi Zhou
- Abstract要約: ビデオの時間文グラウンド(TSGV)は、意味不明のビデオから言語クエリに対応する時間モーメントを検索することを目的としている。
本調査では,TSGVの基本概念と今後の研究方向性について概説する。
- 参考スコア(独自算出の注目度): 60.54191298092136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding in videos (TSGV), a.k.a., natural language video
localization (NLVL) or video moment retrieval (VMR), aims to retrieve a
temporal moment that semantically corresponds to a language query from an
untrimmed video. Connecting computer vision and natural language, TSGV has
drawn significant attention from researchers in both communities. This survey
attempts to provide a summary of fundamental concepts in TSGV and current
research status, as well as future research directions. As the background, we
present a common structure of functional components in TSGV, in a tutorial
style: from feature extraction from raw video and language query, to answer
prediction of the target moment. Then we review the techniques for multimodal
understanding and interaction, which is the key focus of TSGV for effective
alignment between the two modalities. We construct a taxonomy of TSGV
techniques and elaborate methods in different categories with their strengths
and weaknesses. Lastly, we discuss issues with the current TSGV research and
share our insights about promising research directions.
- Abstract(参考訳): ビデオ(tsgv)、すなわち自然言語ビデオローカライゼーション(nlvl)またはビデオモーメント検索(vmr)における時間文グラウンドニングは、未トリミングビデオから言語クエリに意味的に対応する時間モーメントを検索することを目的としている。
コンピュータビジョンと自然言語を結びつけることで、TSGVは両方のコミュニティの研究者から大きな注目を集めている。
本調査は,tsgvの基本概念と現状,今後の研究方向性について概説する。
その背景として,TSGV の機能的コンポーネントの共通構造をチュートリアル形式で提示する: 生のビデオと言語クエリからの機能抽出から,対象モーメントの予測への応答である。
次に,2つのモーダル間の効果的なアライメントのためのTSGVの重要な焦点であるマルチモーダル理解とインタラクションの手法を概観する。
TSGVテクニックの分類と,その長所と短所の異なるカテゴリの精巧な手法を構築した。
最後に,現在のtsgv研究の問題点を議論し,今後の研究方向性について考察する。
関連論文リスト
- Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Towards Visual-Prompt Temporal Answering Grounding in Medical
Instructional Video [21.88924465126168]
ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から導かれる新しいタスクである。
既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。
本稿では,事前学習言語モデル(PLM)におけるテキストスパンのローカライゼーションを視覚強調機能付きで強化するVPTSL法を提案する。
論文 参考訳(メタデータ) (2022-03-13T14:42:53Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。