Fugu-MT 論文翻訳(概要): SpotEM: Efficient Video Search for Episodic Memory

論文の概要: SpotEM: Efficient Video Search for Episodic Memory

arxiv url: http://arxiv.org/abs/2306.15850v1
Date: Wed, 28 Jun 2023 00:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 16:13:21.657525
Title: SpotEM: Efficient Video Search for Episodic Memory
Title（参考訳）: spotem:エピソディックメモリのための効率的なビデオ検索
Authors: Santhosh Kumar Ramakrishnan, Ziad Al-Halah, Kristen Grauman
Abstract要約: エピソード記憶は、自然言語クエリに答えるために、長いエゴセントリックなビデオを探すことを目的としています。既存の方法では、高価な固定長のクリップ機能を抜いて、その答えをビデオの至るところで見ることができる。本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
参考スコア（独自算出の注目度）: 92.98552727430483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal in episodic memory (EM) is to search a long egocentric video to answer a natural language query (e.g., "where did I leave my purse?"). Existing EM methods exhaustively extract expensive fixed-length clip features to look everywhere in the video for the answer, which is infeasible for long wearable-camera videos that span hours or even days. We propose SpotEM, an approach to achieve efficiency for a given EM method while maintaining good accuracy. SpotEM consists of three key ideas: 1) a novel clip selector that learns to identify promising video regions to search conditioned on the language query; 2) a set of low-cost semantic indexing features that capture the context of rooms, objects, and interactions that suggest where to look; and 3) distillation losses that address the optimization issues arising from end-to-end joint training of the clip selector and EM model. Our experiments on 200+ hours of video from the Ego4D EM Natural Language Queries benchmark and three different EM models demonstrate the effectiveness of our approach: computing only 10% - 25% of the clip features, we preserve 84% - 97% of the original EM model's accuracy. Project page: https://vision.cs.utexas.edu/projects/spotem
Abstract（参考訳）: エピソードメモリ(EM)の目標は、自然言語の問い合わせに答えるために、長いエゴセントリックなビデオを検索することである(例えば、私は財布をどこに置き去りにしたのか? 既存のemメソッドは、ビデオの至るところで見られるよう、高価な固定長クリップ機能を徹底的に抽出している。本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。 SpotEMは3つの重要なアイデアから成り立っている。 1) 言語クエリで条件付き検索を行うための有望なビデオ領域を特定することを学習する新規クリップセレクタ 2) 部屋,オブジェクト,および見るべき場所を示すインタラクションのコンテキストをキャプチャする,低コストでセマンティックなインデックス化機能。 3)クリップセレクタとemモデルのエンドツーエンド合同トレーニングから生じる最適化問題に対処する蒸留損失。 Ego4D EM Natural Language Queriesベンチマークによる200時間以上のビデオと3つの異なるEMモデルによる実験は、我々のアプローチの有効性を示している。プロジェクトページ: https://vision.cs.utexas.edu/projects/spotem

関連論文リスト

Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T17:59:04Z)
MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文参考訳（メタデータ） (2025-02-18T05:50:23Z)
Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.07214657235465]
メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文参考訳（メタデータ） (2025-02-11T16:58:15Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文参考訳（メタデータ） (2023-07-05T23:01:26Z)
Multi-video Moment Ranking with Multimodal Clue [69.81533127815884]
VCMRの最先端の研究は、2段階の手法に基づいている。 MINUTEはTVRとDiDeMoデータセットのベースラインを上回っている。
論文参考訳（メタデータ） (2023-01-29T18:38:13Z)
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文参考訳（メタデータ） (2022-01-07T19:00:21Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。 6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文参考訳（メタデータ） (2021-02-11T18:50:16Z)
Temporal Stochastic Softmax for 3D CNNs: An Application in Facial Expression Recognition [11.517316695930596]
本稿では,3次元CNNの効率的なビデオベーストレーニング戦略を提案する。ソフトマックスの時間プーリングと、最も関連するトレーニングクリップを選択するための重み付けサンプリング機構に依存している。
論文参考訳（メタデータ） (2020-11-10T16:40:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。