論文の概要: SpotEM: Efficient Video Search for Episodic Memory
- arxiv url: http://arxiv.org/abs/2306.15850v1
- Date: Wed, 28 Jun 2023 00:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:13:21.657525
- Title: SpotEM: Efficient Video Search for Episodic Memory
- Title(参考訳): spotem:エピソディックメモリのための効率的なビデオ検索
- Authors: Santhosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman
- Abstract要約: エピソード記憶は、自然言語クエリに答えるために、長いエゴセントリックなビデオを探すことを目的としています。
既存の方法では、高価な固定長のクリップ機能を抜いて、その答えをビデオの至るところで見ることができる。
本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
- 参考スコア(独自算出の注目度): 92.98552727430483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal in episodic memory (EM) is to search a long egocentric video to
answer a natural language query (e.g., "where did I leave my purse?"). Existing
EM methods exhaustively extract expensive fixed-length clip features to look
everywhere in the video for the answer, which is infeasible for long
wearable-camera videos that span hours or even days. We propose SpotEM, an
approach to achieve efficiency for a given EM method while maintaining good
accuracy. SpotEM consists of three key ideas: 1) a novel clip selector that
learns to identify promising video regions to search conditioned on the
language query; 2) a set of low-cost semantic indexing features that capture
the context of rooms, objects, and interactions that suggest where to look; and
3) distillation losses that address the optimization issues arising from
end-to-end joint training of the clip selector and EM model. Our experiments on
200+ hours of video from the Ego4D EM Natural Language Queries benchmark and
three different EM models demonstrate the effectiveness of our approach:
computing only 10% - 25% of the clip features, we preserve 84% - 97% of the
original EM model's accuracy. Project page:
https://vision.cs.utexas.edu/projects/spotem
- Abstract(参考訳): エピソードメモリ(EM)の目標は、自然言語の問い合わせに答えるために、長いエゴセントリックなビデオを検索することである(例えば、私は財布をどこに置き去りにしたのか?
既存のemメソッドは、ビデオの至るところで見られるよう、高価な固定長クリップ機能を徹底的に抽出している。
本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
SpotEMは3つの重要なアイデアから成り立っている。
1) 言語クエリで条件付き検索を行うための有望なビデオ領域を特定することを学習する新規クリップセレクタ
2) 部屋,オブジェクト,および見るべき場所を示すインタラクションのコンテキストをキャプチャする,低コストでセマンティックなインデックス化機能。
3)クリップセレクタとemモデルのエンドツーエンド合同トレーニングから生じる最適化問題に対処する蒸留損失。
Ego4D EM Natural Language Queriesベンチマークによる200時間以上のビデオと3つの異なるEMモデルによる実験は、我々のアプローチの有効性を示している。
プロジェクトページ: https://vision.cs.utexas.edu/projects/spotem
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文 参考訳(メタデータ) (2025-02-11T16:58:15Z) - Fine-grained Video-Text Retrieval: A New Benchmark and Method [25.2967056489715]
FIBERは,FineActionデータセットから生成した1,000本のビデオを含むビデオ検索に,テキスト用の微細なbenchmarkである。
FIBERベンチマークでは,ビデオ毎の詳細な空間アノテーションと時間アノテーションが提供されている。
実験の結果,従来のベンチマークにおいて,ビデオ大言語(VLLE)はCLIPベースのモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。