論文の概要: OSGNet @ Ego4D Episodic Memory Challenge 2025
- arxiv url: http://arxiv.org/abs/2506.03710v1
- Date: Wed, 04 Jun 2025 08:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.239431
- Title: OSGNet @ Ego4D Episodic Memory Challenge 2025
- Title(参考訳): OSGNet @ Ego4D Episodic Memory Challenge 2025
- Authors: Yisen Feng, Haoyu Zhang, Qiaohui Chu, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie,
- Abstract要約: CVPR 2025のEgo4D Episodic Memory Challengeにおいて,エゴセントリックな3つのビデオローカライゼーショントラックのチャンピオンソリューションを提案する。
我々は,3つのタスクすべてに取り組むために,初期核融合に基づくビデオローカライゼーションモデルを採用し,ローカライゼーションの精度を高めることを目的とした。
- 参考スコア(独自算出の注目度): 77.414837862995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our champion solutions for the three egocentric video localization tracks of the Ego4D Episodic Memory Challenge at CVPR 2025. All tracks require precise localization of the interval within an untrimmed egocentric video. Previous unified video localization approaches often rely on late fusion strategies, which tend to yield suboptimal results. To address this, we adopt an early fusion-based video localization model to tackle all three tasks, aiming to enhance localization accuracy. Ultimately, our method achieved first place in the Natural Language Queries, Goal Step, and Moment Queries tracks, demonstrating its effectiveness. Our code can be found at https://github.com/Yisen-Feng/OSGNet.
- Abstract(参考訳): 本稿では,CVPR 2025のEgo4D Episodic Memory Challengeにおいて,エゴセントリックな3つのビデオローカライゼーショントラックのチャンピオンソリューションを提案する。
すべてのトラックは、トリミングされていないエゴセントリックなビデオ内の間隔を正確に位置決めする必要がある。
従来の統合ビデオローカライゼーションアプローチは、しばしば後期核融合戦略に依存しており、これは準最適結果をもたらす傾向にある。
そこで我々は,3つの課題すべてに取り組むために,初期核融合型ビデオローカライゼーションモデルを採用し,ローカライゼーションの精度を高めることを目的とした。
最終的に、我々の手法は自然言語クエリ、ゴールステップ、モーメントクエリのトラックで1位を獲得し、その効果を実証した。
私たちのコードはhttps://github.com/Yisen-Feng/OSGNetで参照できます。
関連論文リスト
- Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。
具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。
我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文 参考訳(メタデータ) (2025-05-07T09:20:12Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - SpotEM: Efficient Video Search for Episodic Memory [92.98552727430483]
エピソード記憶は、自然言語クエリに答えるために、長いエゴセントリックなビデオを探すことを目的としています。
既存の方法では、高価な固定長のクリップ機能を抜いて、その答えをビデオの至るところで見ることができる。
本研究では,高い精度を維持しつつ,与えられたEM手法の効率性を実現する手法であるSpotEMを提案する。
論文 参考訳(メタデータ) (2023-06-28T00:52:49Z) - Action Sensitivity Learning for the Ego4D Episodic Memory Challenge 2023 [41.10032280192564]
本稿では、CVPR 2023のEgo4D Episodic Memory Benchmarkの2つのトラックにReLERを提出する。
この手法は提案したASL(Action Sensitivity Learning framework)を継承し,フレームの分散情報をよりよく取得する。
論文 参考訳(メタデータ) (2023-06-15T14:50:17Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。