論文の概要: Object-Shot Enhanced Grounding Network for Egocentric Video
- arxiv url: http://arxiv.org/abs/2505.04270v1
- Date: Wed, 07 May 2025 09:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.026662
- Title: Object-Shot Enhanced Grounding Network for Egocentric Video
- Title(参考訳): エゴセントリックビデオのためのオブジェクトショット強化グラウンドネットワーク
- Authors: Yisen Feng, Haoyu Zhang, Meng Liu, Weili Guan, Liqiang Nie,
- Abstract要約: 我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。
具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。
我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
- 参考スコア(独自算出の注目度): 60.97916755629796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric video grounding is a crucial task for embodied intelligence applications, distinct from exocentric video moment localization. Existing methods primarily focus on the distributional differences between egocentric and exocentric videos but often neglect key characteristics of egocentric videos and the fine-grained information emphasized by question-type queries. To address these limitations, we propose OSGNet, an Object-Shot enhanced Grounding Network for egocentric video. Specifically, we extract object information from videos to enrich video representation, particularly for objects highlighted in the textual query but not directly captured in the video features. Additionally, we analyze the frequent shot movements inherent to egocentric videos, leveraging these features to extract the wearer's attention information, which enhances the model's ability to perform modality alignment. Experiments conducted on three datasets demonstrate that OSGNet achieves state-of-the-art performance, validating the effectiveness of our approach. Our code can be found at https://github.com/Yisen-Feng/OSGNet.
- Abstract(参考訳): エゴセントリックなビデオグラウンドティングは、エゴセントリックなビデオモーメントのローカライゼーションとは異なる、インテリジェンスアプリケーションにとって重要なタスクである。
既存の手法は主に、エゴセントリックなビデオとエゴセントリックなビデオの分布の違いに焦点を当てているが、しばしば、エゴセントリックなビデオの重要な特徴や質問型クエリによって強調されるきめ細かい情報を無視している。
これらの制約に対処するため,自我中心ビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。
具体的には、特にテキストクエリで強調されるが、ビデオ機能では直接キャプチャされていないオブジェクトに対して、ビデオからオブジェクト情報を抽出して、ビデオ表現を豊かにする。
さらに,エゴセントリックビデオに固有の頻繁な撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出し,モデルがモダリティアライメントを行う能力を高める。
3つのデータセットで行った実験は、OSGNetが最先端のパフォーマンスを達成し、我々のアプローチの有効性を検証していることを示している。
私たちのコードはhttps://github.com/Yisen-Feng/OSGNetで参照できます。
関連論文リスト
- Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and
Applications [20.571026014771828]
11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。
私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。
我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
論文 参考訳(メタデータ) (2022-08-07T21:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。