論文の概要: Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory
- arxiv url: http://arxiv.org/abs/2411.16934v2
- Date: Tue, 22 Jul 2025 12:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:10.158686
- Title: Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory
- Title(参考訳): Egocentric Streaming Object Memory を用いたオンラインエピソードメモリビジュアルクエリローカライゼーション
- Authors: Zaira Manigrasso, Matteo Dunnhofer, Antonino Furnari, Moritz Nottebaum, Antonio Finocchiaro, Davide Marana, Rosario Forte, Giovanni Maria Farinella, Christian Micheloni,
- Abstract要約: モデルがオンラインストリームを処理するタスクであるVisual Online 2D(OVQ2D)を導入し、各フレームを一度だけ観察し、完全なビデオ履歴ではなく、コンパクトなメモリを用いてオブジェクトのローカライゼーションを検索する。
他のオンラインアプローチよりもESOMビデオの方が優れていることを実証していますが、OVQ2Dは依然として挑戦的であり、最高のパフォーマンスはわずか4%の成功です。
- 参考スコア(独自算出の注目度): 17.305576093380168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Episodic memory retrieval enables wearable cameras to recall objects or events previously observed in video. However, existing formulations assume an "offline" setting with full video access at query time, limiting their applicability in real-world scenarios with power and storage-constrained wearable devices. Towards more application-ready episodic memory systems, we introduce Online Visual Query 2D (OVQ2D), a task where models process video streams online, observing each frame only once, and retrieve object localizations using a compact memory instead of full video history. We address OVQ2D with ESOM (Egocentric Streaming Object Memory), a novel framework integrating an object discovery module, an object tracking module, and a memory module that find, track, and store spatio-temporal object information for efficient querying. Experiments on Ego4D demonstrate ESOM's superiority over other online approaches, though OVQ2D remains challenging, with top performance at only ~4% success. ESOM's accuracy increases markedly with perfect object tracking (31.91%), discovery (40.55%), or both (81.92%), underscoring the need of applied research on these components.
- Abstract(参考訳): エピソードメモリの検索により、ウェアラブルカメラは、ビデオで以前観察されたオブジェクトやイベントをリコールすることができる。
しかし、既存の定式化では、クエリ時に完全なビデオアクセスを備えた"オフライン"設定を前提としており、電力とストレージに制約のあるウェアラブルデバイスを使用した現実世界のシナリオでの適用性を制限している。
よりアプリケーション対応のエピソードメモリシステムに向けて,オンラインビジュアルクエリ2D(OVQ2D)を導入し,ビデオストリームをオンラインで処理し,各フレームを一度だけ観察し,フルビデオ履歴の代わりにコンパクトメモリを用いてオブジェクトのローカライゼーションを検索するタスクを提案する。
OVQ2Dには、オブジェクト発見モジュールとオブジェクト追跡モジュールを統合した新しいフレームワークであるESOM(Egocentric Streaming Object Memory)と、効率的なクエリのために時空間情報を検索、追跡、保存するメモリモジュールが組み込まれています。
Ego4Dの実験は、他のオンラインアプローチよりもESOMの方が優れていることを示しているが、OVQ2Dは依然として難しい。
ESOMの精度は、完全な物体追跡(31.91%)、発見(40.55%)、およびその両方(81.92%)によって著しく向上し、これらのコンポーネントの応用研究の必要性が強調された。
関連論文リスト
- DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos [53.52664872583893]
Bird's Eye View (BEV) におけるカメラベースの3Dオブジェクト検出は、自律運転において最も重要な認識タスクの1つである。
状態空間学習と動的クエリを用いた新しいDySSを提案する。
提案するDySSは,優れた検出性能と効率的な推論を実現する。
論文 参考訳(メタデータ) (2025-06-11T23:49:56Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。
既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。
人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T11:08:14Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Fast and Resource-Efficient Object Tracking on Edge Devices: A
Measurement Study [9.976630547252427]
マルチオブジェクトトラッキング(MOT)は動く物体を検出し、実際のシーンがビデオに写っているときにフレームによって位置をトラッキングする。
本稿では,オブジェクト追跡における性能問題とエッジ固有の最適化機会について検討する。
EMOと呼ばれるエッジ固有のパフォーマンス最適化戦略をいくつか提示し、リアルタイムオブジェクト追跡を高速化する。
論文 参考訳(メタデータ) (2023-09-06T02:25:36Z) - Memory-augmented Online Video Anomaly Detection [2.269915940890348]
本稿では,ダッシュマウントカメラで撮影した映像のみを利用して,オンラインで動作可能なシステムを提案する。
モバドのAUCスコアは82.17%に達し、現在の最先端である+2.87 AUCを上回っている。
論文 参考訳(メタデータ) (2023-02-21T15:14:27Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - MeMOT: Multi-Object Tracking with Memory [97.48960039220823]
私たちのモデルはMeMOTと呼ばれ、トランスフォーマーベースの3つの主要モジュールで構成されています。
MeMOTは広く採用されているMOTデータセット上で非常に競争力のあるパフォーマンスを観測する。
論文 参考訳(メタデータ) (2022-03-31T02:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。