Fugu-MT 論文翻訳(概要): MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool

論文の概要: MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool

arxiv url: http://arxiv.org/abs/2309.16701v1
Date: Tue, 15 Aug 2023 17:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 05:45:18.744689
Title: MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool
Title（参考訳）: mvmr: 複数の信頼できるビデオプール上での自然言語ビデオローカライゼーションバイアスの評価
Authors: Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung
Abstract要約: 本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMR(Massive Videos Moment Retrieval)タスクを提案する。埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連度スコアを算出し、正と負のセットを定義する。
参考スコア（独自算出の注目度）: 26.669801059308337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the explosion of multimedia content in recent years, natural language video localization, which focuses on detecting video moment that matches a given natural language query, has become a critical problem. However, none of the previous research explores localizing a moment from a large corpus where multiple positive and negative videos exist. In this paper, we propose an MVMR (Massive Videos Moment Retrieval) task, which aims to localize video frames from a massive set of videos given a text query. For this task, we suggest methods for constructing datasets by employing similarity filtering on the existing video localization datasets and introduce three MVMR datasets. Specifically, we employ embedding-based text similarity matching and video-language grounding techniques to calculate the relevance score between a target query and videos to define positive and negative sets. For the proposed MVMR task, we further develop a strong model, Reliable Mutual Matching Network (RMMN), which employs a contrastive learning scheme that selectively filters the reliable and informative negatives leading the model more robust on the MVMR task. Experimental results on the introduced datasets reveal that existing NLVL models are easily distracted by negative video frames, whereas our model shows significant performance.
Abstract（参考訳）: 近年,マルチメディアコンテンツの爆発的な増加に伴い,自然言語検索にマッチする映像モーメントの検出に重点を置く自然言語ビデオのローカライズが問題となっている。しかし、以前の研究は、複数のポジティブなビデオとネガティブなビデオが存在する大きなコーパスからの瞬間を局所化するものではない。本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMRタスクを提案する。そこで本研究では,既存の映像ローカライゼーションデータセットに類似性フィルタリングを適用し,mvmrデータセットを3つ導入する手法を提案する。具体的には、埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連スコアを計算し、正と負のセットを定義する。提案したMVMRタスクに対して,MVMRタスクにおいてモデルをより堅牢に導く信頼性および情報的負を選択的にフィルタするコントラスト学習スキームであるReliable Mutual Matching Network (RMMN) をさらに発展させる。その結果,既存のNLVLモデルは負の映像フレームによって容易に邪魔されるが,本モデルでは高い性能を示した。

関連論文リスト

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering [36.94781787191615]
能動モーメント探索(AMDNet)を用いた簡易かつ効果的な手法を提案する。私たちは、彼らのクエリとセマンティックに一致したビデオモーメントを見つけることを約束しています。 2つの大規模なビデオデータセットの実験は、AMDNetの優位性と効率性を示している。
論文参考訳（メタデータ） (2025-04-15T07:00:18Z)
MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文参考訳（メタデータ） (2024-08-23T10:56:42Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文参考訳（メタデータ） (2024-01-24T09:45:40Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。 MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文参考訳（メタデータ） (2023-01-29T18:38:13Z)
Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-03T01:33:26Z)
VLANet: Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval [21.189093631175425]
ビデオモーメント検索(英語: Video Moment Retrieval、VMR)は、自然言語クエリで指定された未編集ビデオの時間モーメントをローカライズするタスクである。本稿では、弱い教師付き方式(wVMR)でVMRを実行する方法を検討する。実験の結果,Charades-STAおよびDiDeMoデータセット上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-24T07:54:59Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。