論文の概要: SpotEM: Efficient Video Search for Episodic Memory
- arxiv url: http://arxiv.org/abs/2306.15850v1
- Date: Wed, 28 Jun 2023 00:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:13:21.657525
- Title: SpotEM: Efficient Video Search for Episodic Memory
- Title(参考訳): spotem:エピソディックメモリのための効率的なビデオ検索
- Authors: Santhosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman
- Abstract要約: エピソード記憶は、自然言語クエリに答えるために、長いエゴセントリックなビデオを探すことを目的としています。
既存の方法では、高価な固定長のクリップ機能を抜いて、その答えをビデオの至るところで見ることができる。
本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
- 参考スコア(独自算出の注目度): 92.98552727430483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal in episodic memory (EM) is to search a long egocentric video to
answer a natural language query (e.g., "where did I leave my purse?"). Existing
EM methods exhaustively extract expensive fixed-length clip features to look
everywhere in the video for the answer, which is infeasible for long
wearable-camera videos that span hours or even days. We propose SpotEM, an
approach to achieve efficiency for a given EM method while maintaining good
accuracy. SpotEM consists of three key ideas: 1) a novel clip selector that
learns to identify promising video regions to search conditioned on the
language query; 2) a set of low-cost semantic indexing features that capture
the context of rooms, objects, and interactions that suggest where to look; and
3) distillation losses that address the optimization issues arising from
end-to-end joint training of the clip selector and EM model. Our experiments on
200+ hours of video from the Ego4D EM Natural Language Queries benchmark and
three different EM models demonstrate the effectiveness of our approach:
computing only 10% - 25% of the clip features, we preserve 84% - 97% of the
original EM model's accuracy. Project page:
https://vision.cs.utexas.edu/projects/spotem
- Abstract(参考訳): エピソードメモリ(EM)の目標は、自然言語の問い合わせに答えるために、長いエゴセントリックなビデオを検索することである(例えば、私は財布をどこに置き去りにしたのか?
既存のemメソッドは、ビデオの至るところで見られるよう、高価な固定長クリップ機能を徹底的に抽出している。
本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
SpotEMは3つの重要なアイデアから成り立っている。
1) 言語クエリで条件付き検索を行うための有望なビデオ領域を特定することを学習する新規クリップセレクタ
2) 部屋,オブジェクト,および見るべき場所を示すインタラクションのコンテキストをキャプチャする,低コストでセマンティックなインデックス化機能。
3)クリップセレクタとemモデルのエンドツーエンド合同トレーニングから生じる最適化問題に対処する蒸留損失。
Ego4D EM Natural Language Queriesベンチマークによる200時間以上のビデオと3つの異なるEMモデルによる実験は、我々のアプローチの有効性を示している。
プロジェクトページ: https://vision.cs.utexas.edu/projects/spotem
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。
MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文 参考訳(メタデータ) (2023-01-29T18:38:13Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Temporal Stochastic Softmax for 3D CNNs: An Application in Facial
Expression Recognition [11.517316695930596]
本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。
ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。
論文 参考訳(メタデータ) (2020-11-10T16:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。