論文の概要: MS-DETR: Natural Language Video Localization with Sampling Moment-Moment
Interaction
- arxiv url: http://arxiv.org/abs/2305.18969v1
- Date: Tue, 30 May 2023 12:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:31:54.788193
- Title: MS-DETR: Natural Language Video Localization with Sampling Moment-Moment
Interaction
- Title(参考訳): MS-DETR: モーメント-モーメント相互作用のサンプリングによる自然言語ビデオのローカライゼーション
- Authors: Jing Wang, Aixin Sun, Hao Zhang, and Xiaoli Li
- Abstract要約: クエリが与えられた場合、自然言語ビデオローカライゼーション(NLVL)のタスクは、クエリにセマンティックにマッチする未編集ビデオに時間的モーメントをローカライズすることである。
本稿では,提案を生成する提案ベースソリューション(すなわち,候補モーメント)を採用し,その上で最適な提案を選択する。
提案したモーメントサンプリングDETR (MS-DETR) は,候補モーメントとクエリ間の相互モーダル相互作用のモデル化に加えて,モーメントサンプリングDETR (MS-DETR) の効率的なモーメント-モーメント関係モデリングを実現する。
- 参考スコア(独自算出の注目度): 28.21563211881665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a query, the task of Natural Language Video Localization (NLVL) is to
localize a temporal moment in an untrimmed video that semantically matches the
query. In this paper, we adopt a proposal-based solution that generates
proposals (i.e., candidate moments) and then select the best matching proposal.
On top of modeling the cross-modal interaction between candidate moments and
the query, our proposed Moment Sampling DETR (MS-DETR) enables efficient
moment-moment relation modeling. The core idea is to sample a subset of moments
guided by the learnable templates with an adopted DETR (DEtection TRansformer)
framework. To achieve this, we design a multi-scale visual-linguistic encoder,
and an anchor-guided moment decoder paired with a set of learnable templates.
Experimental results on three public datasets demonstrate the superior
performance of MS-DETR.
- Abstract(参考訳): クエリが与えられた場合、自然言語ビデオローカライゼーション(NLVL)のタスクは、クエリにセマンティックにマッチする未編集ビデオに時間的モーメントをローカライズすることである。
本稿では,提案を生成する提案ベースソリューション(すなわち,候補モーメント)を採用し,その上で最適な提案を選択する。
提案したモーメントサンプリングDETR(MS-DETR)は,候補モーメントとクエリ間の相互モーダル相互作用のモデル化に加えて,効率的なモーメント関係モデリングを実現する。
中心となる考え方は、学習可能なテンプレートによって導かれるモーメントのサブセットをDETR(Detection TRansformer)フレームワークでサンプリングすることである。
これを実現するために,マルチスケールのビジュアル言語エンコーダと,学習可能なテンプレートセットと組んだアンカーガイドモーメントデコーダを設計した。
3つの公開データセットの実験結果は、MS-DETRの優れた性能を示している。
関連論文リスト
- QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。
本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。
大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文 参考訳(メタデータ) (2024-05-21T07:12:27Z) - TR-DETR: Task-Reciprocal Transformer for Joint Moment Retrieval and
Highlight Detection [9.032057312774564]
自然言語クエリに基づくビデオモーメント検索(MR)とハイライト検出(HD)は、非常に関連性の高い2つのタスクである。
MRとHDを共同で解くために、DETRベースのネットワークの構築にいくつかの方法が注がれている。
MRとHDの相反性を探索するDETR(TR-DETR)に基づくタスク相互変換器を提案する。
論文 参考訳(メタデータ) (2024-01-04T14:55:57Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Relation-aware Video Reading Comprehension for Temporal Language
Grounding [67.5613853693704]
ビデオ中の時間的言語基盤は、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。
本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
論文 参考訳(メタデータ) (2021-10-12T03:10:21Z) - Progressive Localization Networks for Language-based Moment Localization [56.54450664871467]
本稿では,言語に基づくモーメントローカライゼーションの課題に焦点を当てる。
既存のほとんどの手法は、まず時間長の候補モーメントをサンプリングし、そのモーメントを決定するために与えられたクエリとマッチングする。
本稿では,ターゲットモーメントを粗い方法で段階的に局所化する多段階プログレッシブ・ローカライゼーション・ネットワーク(PLN)を提案する。
論文 参考訳(メタデータ) (2021-02-02T03:45:59Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - VLANet: Video-Language Alignment Network for Weakly-Supervised Video
Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。
本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。
実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-24T07:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。