論文の概要: Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory
- arxiv url: http://arxiv.org/abs/2411.16934v1
- Date: Mon, 25 Nov 2024 21:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:24.731084
- Title: Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory
- Title(参考訳): Egocentric Streaming Object Memory を用いたオンラインエピソードメモリビジュアルクエリローカライゼーション
- Authors: Zaira Manigrasso, Matteo Dunnhofer, Antonino Furnari, Moritz Nottebaum, Antonio Finocchiaro, Davide Marana, Giovanni Maria Farinella, Christian Micheloni,
- Abstract要約: エピソードメモリ検索は、過去のビデオ観察オブジェクトや観測されたイベントから再収集できるウェアラブルデバイスを実現することを目的としている。
現在のタスクの定式化は、ユーザーがクエリを行うときに全ビデオ履歴にアクセス可能であるという"オフライン"の仮定に基づいている。
そこで我々は,オンライン・エピソード・メモリ・ビジュアル・エゴ・クエリ(OEM-VQL)の新たなタスクを紹介した。
- 参考スコア(独自算出の注目度): 17.956367558818076
- License:
- Abstract: Episodic memory retrieval aims to enable wearable devices with the ability to recollect from past video observations objects or events that have been observed (e.g., "where did I last see my smartphone?"). Despite the clear relevance of the task for a wide range of assistive systems, current task formulations are based on the "offline" assumption that the full video history can be accessed when the user makes a query, which is unrealistic in real settings, where wearable devices are limited in power and storage capacity. We introduce the novel task of Online Episodic Memory Visual Queries Localization (OEM-VQL), in which models are required to work in an online fashion, observing video frames only once and relying on past computations to answer user queries. To tackle this challenging task, we propose ESOM - Egocentric Streaming Object Memory, a novel framework based on an object discovery module to detect potentially interesting objects, a visual object tracker to track their position through the video in an online fashion, and a memory module to store spatio-temporal object coordinates and image representations, which can be queried efficiently at any moment. Comparisons with different baselines and offline methods show that OEM-VQL is challenging and ESOM is a viable approach to tackle the task, with results outperforming offline methods (81.92 vs 55.89 success rate %) when oracular object discovery and tracking are considered. Our analysis also sheds light on the limited performance of object detection and tracking in egocentric vision, providing a principled benchmark based on the OEM-VQL downstream task to assess progress in these areas.
- Abstract(参考訳): エピソードメモリの検索は、過去のビデオ観察対象や観測された出来事を再現する機能を備えたウェアラブルデバイスを実現することを目的としている(例:「スマホを最後に見た場所は?
幅広い補助システムにおけるタスクの明確な関連性にもかかわらず、現在のタスクの定式化は、ユーザーがクエリを行う際に全ビデオ履歴にアクセス可能であるという"オフライン"の仮定に基づいている。
そこで我々は,オンライン・エピソード・メモリ・ビジュアル・クエリ・ローカライゼーション(OEM-VQL)という新しいタスクを紹介した。
この課題に対処するために,ESOM - Egocentric Streaming Object Memory, 潜在的に興味深いオブジェクトを検出するオブジェクト発見モジュールに基づく新しいフレームワーク, オンラインで動画を通して位置をトラッキングするビジュアルオブジェクトトラッカ, 時空間のオブジェクト座標と画像表現を格納するメモリモジュールを提案する。
異なるベースラインやオフラインメソッドと比較すると、OEM-VQLは困難であり、ESOMはタスクに取り組むための実行可能なアプローチであることを示している。
我々はまた、自我中心の視覚におけるオブジェクト検出と追跡の限られた性能に光を当て、OEM-VQLダウンストリームタスクに基づく基本的なベンチマークを提供し、これらの領域の進捗を評価する。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Fast and Resource-Efficient Object Tracking on Edge Devices: A
Measurement Study [9.976630547252427]
マルチオブジェクトトラッキング(MOT)は動く物体を検出し、実際のシーンがビデオに写っているときにフレームによって位置をトラッキングする。
本稿では,オブジェクト追跡における性能問題とエッジ固有の最適化機会について検討する。
EMOと呼ばれるエッジ固有のパフォーマンス最適化戦略をいくつか提示し、リアルタイムオブジェクト追跡を高速化する。
論文 参考訳(メタデータ) (2023-09-06T02:25:36Z) - Memory-augmented Online Video Anomaly Detection [2.269915940890348]
本稿では,ダッシュマウントカメラで撮影した映像のみを利用して,オンラインで動作可能なシステムを提案する。
モバドのAUCスコアは82.17%に達し、現在の最先端である+2.87 AUCを上回っている。
論文 参考訳(メタデータ) (2023-02-21T15:14:27Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。