論文の概要: 2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval
- arxiv url: http://arxiv.org/abs/2406.06201v1
- Date: Mon, 10 Jun 2024 11:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:07:44.233795
- Title: 2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval
- Title(参考訳): 2DP-2MRC:マルチモーダルモーメント検索のための2次元ポインタベース機械読解法
- Authors: Jiajun He, Tomoki Toda,
- Abstract要約: モーメント検索は、与えられた自然言語クエリに基づいて、トリミングされていないビデオの中で最も関連性の高い瞬間を見つけることを目的としている。
既存のソリューションは、モーメントベースの方法とクリップベースの方法に大まかに分類することができる。
本稿では,クリップベース手法における不正確なローカライゼーションの問題に対処するため,新しい2次元ポインターベース2DP-2MRCモデルを提案する。
- 参考スコア(独自算出の注目度): 27.245689792428557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moment retrieval aims to locate the most relevant moment in an untrimmed video based on a given natural language query. Existing solutions can be roughly categorized into moment-based and clip-based methods. The former often involves heavy computations, while the latter, due to overlooking coarse-grained information, typically underperforms compared to moment-based models. Hence, this paper proposes a novel 2-Dimensional Pointer-based Machine Reading Comprehension for Moment Retrieval Choice (2DP-2MRC) model to address the issue of imprecise localization in clip-based methods while maintaining lower computational complexity than moment-based methods. Specifically, we introduce an AV-Encoder to capture coarse-grained information at moment and video levels. Additionally, a 2D pointer encoder module is introduced to further enhance boundary detection for target moment. Extensive experiments on the HiREST dataset demonstrate that 2DP-2MRC significantly outperforms existing baseline models.
- Abstract(参考訳): モーメント検索は、与えられた自然言語クエリに基づいて、トリミングされていないビデオの中で最も関連性の高い瞬間を見つけることを目的としている。
既存のソリューションは、モーメントベースの方法とクリップベースの方法に大まかに分類することができる。
前者は重い計算を伴うことが多いが、後者は粗い情報を見渡すため、通常モーメントベースモデルに比べて性能が劣る。
そこで本研究では, モーメント検索選択のための2次元ポインターベース機械読解包括モデルを提案し, モーメントベース手法よりも計算量が少なく, クリップベース手法における不正確な局所化の問題に対処する。
具体的には、粗粒度情報と映像レベルを瞬間的にキャプチャするAVエンコーダを導入する。
さらに、2Dポインタエンコーダモジュールを導入し、目標モーメントの境界検出をさらに強化する。
HiRESTデータセットに関する大規模な実験は、2DP-2MRCが既存のベースラインモデルを大幅に上回っていることを示している。
関連論文リスト
- D2Vformer: A Flexible Time Series Prediction Model Based on Time Position Embedding [10.505132550106389]
時間位置埋め込みは時間ステップの位置情報をキャプチャし、しばしば時系列モデルの予測能力を高める補助的な入力として機能する。
本稿では,予測シーケンスが入力シーケンスに隣接しないシナリオを扱うために,D2Vformerと呼ばれる新しいモデルを提案する。
D2Vformerは、固定長および可変長の予測タスクにおいて最先端のメソッドを超越する。
論文 参考訳(メタデータ) (2024-09-17T09:39:37Z) - GPTSee: Enhancing Moment Retrieval and Highlight Detection via
Description-Based Similarity Features [1.614471032380076]
モーメント検索(MR)とハイライト検出(HD)は、自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。
MR&HDの既存の手法はまだ大きな言語モデルと統合されていない。
本稿では,LLMの出力を第2段変換器エンコーダ・デコーダの入力とする2段階モデルを提案する。
論文 参考訳(メタデータ) (2024-03-03T08:24:28Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Faster Video Moment Retrieval with Point-Level Supervision [70.51822333023145]
Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。
既存のVMRメソッドには2つの欠陥がある。
CFMR(Cheaper and Faster Moment Retrieval)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:53:50Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。