論文の概要: Progressive Localization Networks for Language-based Moment Localization
- arxiv url: http://arxiv.org/abs/2102.01282v1
- Date: Tue, 2 Feb 2021 03:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:48:27.339228
- Title: Progressive Localization Networks for Language-based Moment Localization
- Title(参考訳): 言語に基づくモーメント定位のためのプログレッシブ定位ネットワーク
- Authors: Qi Zheng, Jianfeng Dong, Xiaoye Qu, Xun Yang, Shouling Ji, Xun Wang
- Abstract要約: 本稿では,言語に基づくモーメントローカライゼーションの課題に焦点を当てる。
既存のほとんどの手法は、まず時間長の候補モーメントをサンプリングし、そのモーメントを決定するために与えられたクエリとマッチングする。
本稿では,ターゲットモーメントを粗い方法で段階的に局所化する多段階プログレッシブ・ローカライゼーション・ネットワーク(PLN)を提案する。
- 参考スコア(独自算出の注目度): 56.54450664871467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper targets the task of language-based moment localization. The
language-based setting of this task allows for an open set of target
activities, resulting in a large variation of the temporal lengths of video
moments. Most existing methods prefer to first sample sufficient candidate
moments with various temporal lengths, and then match them with the given query
to determine the target moment. However, candidate moments generated with a
fixed temporal granularity may be suboptimal to handle the large variation in
moment lengths. To this end, we propose a novel multi-stage Progressive
Localization Network (PLN) which progressively localizes the target moment in a
coarse-to-fine manner. Specifically, each stage of PLN has a localization
branch, and focuses on candidate moments that are generated with a specific
temporal granularity. The temporal granularities of candidate moments are
different across the stages. Moreover, we devise a conditional feature
manipulation module and an upsampling connection to bridge the multiple
localization branches. In this fashion, the later stages are able to absorb the
previously learned information, thus facilitating the more fine-grained
localization. Extensive experiments on three public datasets demonstrate the
effectiveness of our proposed PLN for language-based moment localization and
its potential for localizing short moments in long videos.
- Abstract(参考訳): 本稿では,言語に基づくモーメントローカライゼーションの課題を対象とする。
このタスクの言語ベースの設定により、ターゲットアクティビティのオープンなセットが可能になり、ビデオモーメントの時間的長さが大きく変化する。
既存の手法では、まず時間長の異なる十分な候補モーメントをサンプリングし、それから与えられたクエリと照合して目標モーメントを決定する。
しかし、定時間粒度で生成された候補モーメントは、モーメント長の大きな変動を処理するのに最適である。
そこで本研究では,目標モーメントを粗大な方法で段階的にローカライズする多段階プログレッシブ・ローカライゼーション・ネットワーク(PLN)を提案する。
具体的には、PLNの各段階は局所化分岐を持ち、特定の時間的粒度で生成される候補モーメントに焦点を当てる。
候補モーメントの時間的粒度はステージによって異なる。
さらに,条件付き特徴操作モジュールとアップサンプリング接続を考案し,複数のローカライズブランチを橋渡しする。
この方法では、後段は事前に学習した情報を吸収することができるため、より細かい局所化が容易になる。
3つの公開データセットに対する大規模な実験は、言語に基づくモーメントローカライゼーションにおけるPLNの有効性と、長いビデオで短いモーメントをローカライズする可能性を示す。
関連論文リスト
- LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - A Survey on Video Moment Localization [61.5323647499912]
ビデオモーメントのローカライゼーションは、与えられた自然言語クエリによって記述されたビデオ内のターゲットセグメントを検索することを目的としている。
本稿では,教師付き,弱教師付き,教師なしなどの既存の映像モーメントローカライゼーション手法について概説する。
本稿では,この分野,特に大規模データセットと解釈可能なビデオモーメントローカライゼーションモデルについて論じる。
論文 参考訳(メタデータ) (2023-06-13T02:57:32Z) - MS-DETR: Natural Language Video Localization with Sampling Moment-Moment
Interaction [28.21563211881665]
クエリが与えられた場合、自然言語ビデオローカライゼーション(NLVL)のタスクは、クエリにセマンティックにマッチする未編集ビデオに時間的モーメントをローカライズすることである。
本稿では,提案を生成する提案ベースソリューション(すなわち,候補モーメント)を採用し,その上で最適な提案を選択する。
提案したモーメントサンプリングDETR (MS-DETR) は,候補モーメントとクエリ間の相互モーダル相互作用のモデル化に加えて,モーメントサンプリングDETR (MS-DETR) の効率的なモーメント-モーメント関係モデリングを実現する。
論文 参考訳(メタデータ) (2023-05-30T12:06:35Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。