Fugu-MT 論文翻訳(概要): GMMFormer: Gaussian-Mixture-Model based Transformer for Efficient Partially Relevant Video Retrieval

論文の概要: GMMFormer: Gaussian-Mixture-Model based Transformer for Efficient Partially Relevant Video Retrieval

arxiv url: http://arxiv.org/abs/2310.05195v1
Date: Sun, 8 Oct 2023 15:04:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 11:34:17.478779
Title: GMMFormer: Gaussian-Mixture-Model based Transformer for Efficient Partially Relevant Video Retrieval
Title（参考訳）: GMMFormer:高効率部分関連ビデオ検索のためのガウスミクチャーモデル変換器
Authors: Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shu-Tao Xia
Abstract要約: テキストクエリーが与えられた場合、部分的に関連のあるビデオ検索は、データベース内の関連するモーメントを含むビデオを探し出そうとする。 PRVRにとって、クリップモデリングはテキストとビデオの間の部分的関係をキャプチャするために不可欠である。本稿では,PRVR手法の効率問題を解決するため,GMMFormerを提案する。
参考スコア（独自算出の注目度）: 59.47258928867802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given a text query, partially relevant video retrieval (PRVR) seeks to find untrimmed videos containing pertinent moments in a database. For PRVR, clip modeling is essential to capture the partial relationship between texts and videos. Current PRVR methods adopt scanning-based clip construction to achieve explicit clip modeling, which is information-redundant and requires a large storage overhead. To solve the efficiency problem of PRVR methods, this paper proposes GMMFormer, a \textbf{G}aussian-\textbf{M}ixture-\textbf{M}odel based Trans\textbf{former} which models clip representations implicitly. During frame interactions, we incorporate Gaussian-Mixture-Model constraints to focus each frame on its adjacent frames instead of the whole video. Then generated representations will contain multi-scale clip information, achieving implicit clip modeling. In addition, PRVR methods ignore semantic differences between text queries relevant to the same video, leading to a sparse embedding space. We propose a query diverse loss to distinguish these text queries, making the embedding space more intensive and contain more semantic information. Extensive experiments on three large-scale video datasets (\ie, TVR, ActivityNet Captions, and Charades-STA) demonstrate the superiority and efficiency of GMMFormer.
Abstract（参考訳）: テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)は、データベース内の関連する瞬間を含む未トリミングビデオを見つけようとする。 PRVRにとって、クリップモデリングはテキストとビデオの間の部分的関係をキャプチャするために不可欠である。現在のPRVR法では, 情報冗長で大きなストレージオーバーヘッドを必要とする明示的なクリップモデリングを実現するために, スキャニングベースのクリップ構造を採用している。本稿では,クリップ表現を暗黙的にモデル化する Trans\textbf{M}odel based Trans\textbf{M}odel を用いた GMMFormer を提案する。フレーム間相互作用において、ビデオ全体ではなく、隣接するフレームに各フレームを集中させるためにガウス・ミクチャー・モデル制約を組み込む。生成された表現にはマルチスケールのクリップ情報が含まれ、暗黙のクリップモデリングを実現します。さらに、PRVRメソッドは、同じビデオに関連するテキストクエリ間の意味的差異を無視する。我々は,これらのテキストクエリを識別するために,クエリの多彩な損失を提案し,埋め込み空間をより集中的にし,セマンティックな情報を含むようにした。 3つの大規模ビデオデータセット(\ie, TVR, ActivityNet Captions, Charades-STA)の大規模な実験は、GMMFormerの優位性と効率性を実証している。

関連論文リスト

HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning [77.434558721499]
部分関連ビデオ検索(PRVR)は、部分コンテンツのみを記述するテキストクエリと、未トリミングされたビデオとをマッチングするという課題に対処する。本稿は,高次空間学習を利用してユークリッド空間の最適階層的モデリング能力を補う,PRVRのための最初のハイパーボリックモデリングフレームワークであるHLFormerを提案する。
論文参考訳（メタデータ） (2025-07-23T10:59:46Z)
AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文参考訳（メタデータ） (2025-06-16T15:18:15Z)
TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval [1.8434042562191815]
本稿では,TC-MGC と呼ばれるテキスト記述型マルチグラインドコントラストフレームワークを提案する。本モデルでは,単語の重み付けとテキストの重み付けに係わる集約されたフレームとビデオ表現を生成するために,言語ビデオのアテンションブロックを用いる。実証的に、TC-MGCは複数のテキストビデオ検索ベンチマークで競合する結果を得る。
論文参考訳（メタデータ） (2025-04-07T03:33:14Z)
VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding [44.382937324454254]
既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。 VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
論文参考訳（メタデータ） (2024-10-11T07:42:36Z)
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文参考訳（メタデータ） (2024-06-13T17:59:59Z)
GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文参考訳（メタデータ） (2024-05-22T16:55:31Z)
Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文参考訳（メタデータ） (2024-03-25T17:59:03Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T08:12:58Z)
Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。 PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。 PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文参考訳（メタデータ） (2022-08-26T09:07:16Z)
Multi-Attention Network for Compressed Video Referring Object Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文参考訳（メタデータ） (2022-07-26T03:00:52Z)
Smoothed Gaussian Mixture Models for Video Classification and Recommendation [10.119117405418868]
SGMM(S smoothed Gaussian mixed Model)と呼ばれる新しいクラスタ・アンド・アグリゲート法を提案する。 YouTube-8M分類タスクの広範な実験を通じて、SGMM/DSGMMはVLAD/NetVLADよりも一貫して優れていますが、統計的に有意なマージンを示しています。
論文参考訳（メタデータ） (2020-12-17T06:52:41Z)
Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文参考訳（メタデータ） (2020-09-22T10:25:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。