Fugu-MT 論文翻訳(概要): Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval

論文の概要: Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval

arxiv url: http://arxiv.org/abs/2210.12617v1
Date: Sun, 23 Oct 2022 05:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 16:27:39.483098
Title: Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval
Title（参考訳）: ビデオコーパスモーメント検索のためのモーダル固有擬似クエリ生成
Authors: Minjoon Jung, Seongho Choi, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang
Abstract要約: ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。モーダル固有のPseudo Query Generation Network (MPGN) を提案する。 MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
参考スコア（独自算出の注目度）: 20.493241098064665
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video corpus moment retrieval (VCMR) is the task to retrieve the most relevant video moment from a large video corpus using a natural language query. For narrative videos, e.g., dramas or movies, the holistic understanding of temporal dynamics and multimodal reasoning is crucial. Previous works have shown promising results; however, they relied on the expensive query annotations for VCMR, i.e., the corresponding moment intervals. To overcome this problem, we propose a self-supervised learning framework: Modal-specific Pseudo Query Generation Network (MPGN). First, MPGN selects candidate temporal moments via subtitle-based moment sampling. Then, it generates pseudo queries exploiting both visual and textual information from the selected temporal moments. Through the multimodal information in the pseudo queries, we show that MPGN successfully learns to localize the video corpus moment without any explicit annotation. We validate the effectiveness of MPGN on the TVR dataset, showing competitive results compared with both supervised models and unsupervised setting models.
Abstract（参考訳）: ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。ドラマや映画などの物語ビデオでは、時間的ダイナミクスとマルチモーダル推論の全体的理解が不可欠である。以前の研究は有望な結果を示しているが、彼らはVCMRの高価なクエリアノテーション、すなわち対応するモーメントインターバルに依存していた。そこで本研究では, 自己教師付き学習フレームワークであるmodal-specific pseudo query generation network (mpgn)を提案する。まず、MPGNはサブタイトルベースのモーメントサンプリングにより候補時間モーメントを選択する。そして、選択した時間モーメントから視覚情報とテキスト情報の両方を利用した擬似クエリを生成する。疑似クエリのマルチモーダル情報を通して,mpgnは明示的なアノテーションなしにビデオコーパスモーメントの局所化を成功に学んだことを示す。我々は,TVRデータセットにおけるMPGNの有効性を検証し,教師付きモデルと教師なし設定モデルとの競合結果を示した。

関連論文リスト

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文参考訳（メタデータ） (2025-06-23T17:53:18Z)
ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。 MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文参考訳（メタデータ） (2025-05-24T07:01:31Z)
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
時間的推論と大規模マルチモーダルデータ処理の必要性から,Long Video Question Answering (LVQA) は困難である。非常に長い動画を効率的に処理する検索拡張生成フレームワークであるUMaTを紹介する。 UMaTは、マルチモーダル統合、長文ビデオ理解、スパース情報検索において、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-03-12T05:28:24Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。 MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文参考訳（メタデータ） (2023-01-29T18:38:13Z)
Relation-aware Video Reading Comprehension for Temporal Language Grounding [67.5613853693704]
ビデオ中の時間的言語基盤は、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
論文参考訳（メタデータ） (2021-10-12T03:10:21Z)
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文参考訳（メタデータ） (2021-07-20T16:42:58Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文参考訳（メタデータ） (2020-09-22T10:25:41Z)
Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。本稿では,モーメントアライメントネットワーク(HMAN)を提案する。 HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文参考訳（メタデータ） (2020-08-20T00:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。