論文の概要: A Survey on Natural Language Video Localization
- arxiv url: http://arxiv.org/abs/2104.00234v1
- Date: Thu, 1 Apr 2021 03:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:26:54.100425
- Title: A Survey on Natural Language Video Localization
- Title(参考訳): 自然言語ビデオのローカライズに関する調査研究
- Authors: Xinfang Liu, Xiushan Nie (Member, IEEE), Zhifang Tan, Jie Guo, Yilong
Yin
- Abstract要約: 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに対応するビデオからターゲットモーメントを見つけることを目的としている。
まず,NLVLアルゴリズムのパイプラインを提案し,それらを教師付きおよび弱教師付き手法に分類する。
データセット、評価プロトコル、一般的なパフォーマンス分析を紹介します。
- 参考スコア(独自算出の注目度): 21.578079431025806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language video localization (NLVL), which aims to locate a target
moment from a video that semantically corresponds to a text query, is a novel
and challenging task. Toward this end, in this paper, we present a
comprehensive survey of the NLVL algorithms, where we first propose the
pipeline of NLVL, and then categorize them into supervised and
weakly-supervised methods, following by the analysis of the strengths and
weaknesses of each kind of methods. Subsequently, we present the dataset,
evaluation protocols and the general performance analysis. Finally, the
possible perspectives are obtained by summarizing the existing methods.
- Abstract(参考訳): テキストクエリに意味的に対応したビデオからターゲットモーメントを見つけることを目的とした自然言語ビデオローカライゼーション(nlvl)は、新しくて挑戦的なタスクである。
そこで本研究では,まずnlvlのパイプラインを提案するnlvlアルゴリズムの包括的調査を行い,そのパイプラインを教師あり,弱い教師ありの手法に分類し,各手法の長所と短所を分析した。
次に,データセット,評価プロトコル,一般性能解析について述べる。
最後に、既存の手法を要約することで可能な視点を得る。
関連論文リスト
- Tri-Level Navigator: LLM-Empowered Tri-Level Learning for Time Series OOD Generalization [9.95894026392039]
事前学習された大言語モデルを用いた時系列OOD一般化について検討する。
まず,textbfSeries textbfOOD 一般化のための新しい textbfTri レベルの学習フレームワーク TTSO を提案する。
本稿では,この三段階最適化問題に適した階層化ローカライゼーションアルゴリズムを開発し,提案アルゴリズムの保証収束を理論的に実証する。
論文 参考訳(メタデータ) (2024-10-09T16:00:21Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - The Elements of Temporal Sentence Grounding in Videos: A Survey and
Future Directions [60.54191298092136]
ビデオの時間文グラウンド(TSGV)は、意味不明のビデオから言語クエリに対応する時間モーメントを検索することを目的としている。
本調査では,TSGVの基本概念と今後の研究方向性について概説する。
論文 参考訳(メタデータ) (2022-01-20T09:10:20Z) - Exploring Conditional Text Generation for Aspect-Based Sentiment
Analysis [28.766801337922306]
アスペクトベース感情分析(Aspect-based sentiment analysis、ABSA)は、ユーザ生成レビューを処理して評価対象を決定するNLPタスクである。
本稿では,ABSAを抽象的な要約型条件文生成タスクに変換し,目的,側面,極性を用いて補助文を生成することを提案する。
論文 参考訳(メタデータ) (2021-10-05T20:08:25Z) - Natural Language Video Localization with Learnable Moment Proposals [40.91060659795612]
学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T12:18:58Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Span-based Localizing Network for Natural Language Video Localization [60.54191298092136]
非トリミングビデオとテキストクエリが与えられたとき、自然言語ビデオローカライゼーション(NLVL)は、クエリに意味的に対応するビデオからマッチングスパンを見つけることである。
NLVLに対処するビデオスパンローカライズネットワーク(VSLNet)を提案する。
論文 参考訳(メタデータ) (2020-04-29T02:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。