論文の概要: MomentDiff: Generative Video Moment Retrieval from Random to Real
- arxiv url: http://arxiv.org/abs/2307.02869v2
- Date: Wed, 11 Oct 2023 10:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:42:04.709037
- Title: MomentDiff: Generative Video Moment Retrieval from Random to Real
- Title(参考訳): momentdiff: ランダムからリアルへの生成的ビデオモーメント検索
- Authors: Pandeng Li, Chen-Wei Xie, Hongtao Xie, Liming Zhao, Lei Zhang, Yun
Zheng, Deli Zhao, Yongdong Zhang
- Abstract要約: 私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 71.40038773943638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video moment retrieval pursues an efficient and generalized solution to
identify the specific temporal segments within an untrimmed video that
correspond to a given language description. To achieve this goal, we provide a
generative diffusion-based framework called MomentDiff, which simulates a
typical human retrieval process from random browsing to gradual localization.
Specifically, we first diffuse the real span to random noise, and learn to
denoise the random noise to the original span with the guidance of similarity
between text and video. This allows the model to learn a mapping from arbitrary
random locations to real moments, enabling the ability to locate segments from
random initialization. Once trained, MomentDiff could sample random temporal
segments as initial guesses and iteratively refine them to generate an accurate
temporal boundary. Different from discriminative works (e.g., based on
learnable proposals or queries), MomentDiff with random initialized spans could
resist the temporal location biases from datasets. To evaluate the influence of
the temporal location biases, we propose two anti-bias datasets with location
distribution shifts, named Charades-STA-Len and Charades-STA-Mom. The
experimental results demonstrate that our efficient framework consistently
outperforms state-of-the-art methods on three public benchmarks, and exhibits
better generalization and robustness on the proposed anti-bias datasets. The
code, model, and anti-bias evaluation datasets are available at
https://github.com/IMCCretrieval/MomentDiff.
- Abstract(参考訳): ビデオモーメント検索は、与えられた言語記述に対応する未トリミングビデオ内の特定の時間的セグメントを識別するための効率的で一般化されたソリューションを追求する。
この目的を達成するために、momentdiffと呼ばれる生成拡散ベースのフレームワークを提供し、ランダムブラウジングから漸進的ローカライゼーションまでの典型的な人間の検索プロセスをシミュレートする。
具体的には、まず実空間をランダムノイズに拡散させ、テキストとビデオの類似性のガイダンスを用いてランダムノイズを元の空間に分解する。
これにより、モデルは任意のランダムな場所から実際のモーメントへのマッピングを学習でき、ランダムな初期化からセグメントを見つけることができる。
トレーニングが完了すると、MomentDiffはランダムな時間セグメントを初期推定としてサンプリングし、それらを反復的に洗練して正確な時間境界を生成する。
識別作業(例えば学習可能な提案やクエリに基づく)とは異なり、ランダムな初期化スパンを持つmomentdiffはデータセットからの時間的位置バイアスに抵抗する可能性がある。
時間的位置バイアスの影響を評価するために,Charades-STA-Len と Charades-STA-Mom という2つの反バイアスデータセットを提案する。
実験の結果,提案手法は3つのベンチマークで常に最先端手法を上回っており,提案するアンチバイアスデータセットの一般化とロバスト性が向上していることがわかった。
コード、モデル、アンチバイアス評価データセットはhttps://github.com/IMCCretrieval/MomentDiffで入手できる。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Random Boxes Are Open-world Object Detectors [71.86454597677387]
ランダム領域の提案によって訓練された分類器が最先端のオープンワールドオブジェクト検出(OWOD)を実現することを示す。
我々はRandBoxを提案する。RandBoxはR-CNNベースのアーキテクチャで、各トレーニングでランダムな提案を訓練する。
RandBoxは、すべてのメトリクスにおいて、過去の最先端を著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T05:08:32Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Learning Sample Importance for Cross-Scenario Video Temporal Grounding [30.82619216537177]
本稿では,時間的接地作業に特有の表面バイアスについて検討する。
そこで本研究では,Debiased Temporal Language Localizer (DebiasTLL) と呼ばれる新しい手法を提案する。
我々は、列車/テストデータが均一にソースされるクロスセサリオ時間的グラウンドリングにおいて、提案モデルを評価する。
論文 参考訳(メタデータ) (2022-01-08T15:41:38Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - AriEL: volume coding for sentence generation [5.972927416266617]
連続空間を均一にサンプリングすることで文を生成する深層学習における標準手法の性能を向上させる。
我々は、損失関数によるボリュームの生成を奨励することなく、連続した空間でボリュームを構成するAriELを提案する。
以上の結果から,記憶されている情報へのランダムなアクセスが劇的に改善され,AriELが潜在空間をランダムにサンプリングすることで,より広い範囲の正しい言語を生成できることが示唆された。
論文 参考訳(メタデータ) (2020-03-30T16:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。