論文の概要: GazeNLQ @ Ego4D Natural Language Queries Challenge 2025
- arxiv url: http://arxiv.org/abs/2506.05782v1
- Date: Fri, 06 Jun 2025 06:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.348757
- Title: GazeNLQ @ Ego4D Natural Language Queries Challenge 2025
- Title(参考訳): GazeNLQ @Ego4D Natural Language Queries Challenge 2025
- Authors: Wei-Cheng Lin, Chih-Ming Lien, Chen Lo, Chia-Hung Yeh,
- Abstract要約: エゴセントリックなビデオは、視線が重要な非言語コミュニケーションキューとして機能する、着用者の視点からシーンを捉えます。
そこで我々はGazeNLQという,与えられた自然言語クエリと一致するビデオセグメントを検索する手法を提案する。
実験の結果, GazeNLQ は R1@IoU0.3 と R1@IoU0.5 のスコアが 27.82 と 18.68 であることがわかった。
- 参考スコア(独自算出の注目度): 5.050705820333818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents our solution to the Ego4D Natural Language Queries (NLQ) Challenge at CVPR 2025. Egocentric video captures the scene from the wearer's perspective, where gaze serves as a key non-verbal communication cue that reflects visual attention and offer insights into human intention and cognition. Motivated by this, we propose a novel approach, GazeNLQ, which leverages gaze to retrieve video segments that match given natural language queries. Specifically, we introduce a contrastive learning-based pretraining strategy for gaze estimation directly from video. The estimated gaze is used to augment video representations within proposed model, thereby enhancing localization accuracy. Experimental results show that GazeNLQ achieves R1@IoU0.3 and R1@IoU0.5 scores of 27.82 and 18.68, respectively. Our code is available at https://github.com/stevenlin510/GazeNLQ.
- Abstract(参考訳): 本報告では,CVPR 2025におけるEgo4D Natural Language Queries (NLQ) Challengeへのソリューションについて述べる。
エゴセントリックなビデオは着用者の視点からシーンを捉え、視線は視覚的注意を反映し、人間の意図と認知に関する洞察を与える重要な非言語コミュニケーションキューとして機能する。
そこで我々はGazeNLQという,与えられた自然言語クエリと一致するビデオセグメントを検索する手法を提案する。
具体的には、ビデオから直接視線推定を行うために、対照的な学習に基づく事前学習戦略を導入する。
推定された視線は、提案モデル内での映像表現の増大に利用され、これにより、ローカライゼーションの精度が向上する。
実験の結果, GazeNLQ は R1@IoU0.3 と R1@IoU0.5 のスコアが 27.82 と 18.68 であることがわかった。
私たちのコードはhttps://github.com/stevenlin510/GazeNLQ.comで公開されています。
関連論文リスト
- ObjectNLQ @ Ego4D Episodic Memory Challenge 2024 [51.57555556405898]
本稿では,CVPR 2024におけるEgo4D Episodic Memory Benchmarkの自然言語クエリトラックとゴールステップトラックについて紹介する。
どちらの課題も、テキストクエリを使って長いビデオシーケンス内のアクションをローカライズする必要がある。
我々は、オブジェクトブランチを組み込んだ新しいアプローチObjectNLQを導入し、ビデオ表現を詳細なオブジェクト情報で拡張する。
論文 参考訳(メタデータ) (2024-06-22T07:57:58Z) - GroundNLQ @ Ego4D Natural Language Queries Challenge 2023 [73.12670280220992]
映像を正確にグラウンドするには、効果的なエゴセントリック特徴抽出器と強力なグラウンドモデルが必要である。
我々は,2段階の事前学習戦略を利用して,ビデオナレーションにおけるエゴセントリックな特徴抽出器とグラウンドングモデルを訓練する。
さらに,マルチモーダルなマルチスケールグラウンドモジュールを用いた新しいグラウンドグラウンドモデル GroundNLQ を提案する。
論文 参考訳(メタデータ) (2023-06-27T07:27:52Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - Learning Video-independent Eye Contact Segmentation from In-the-Wild
Videos [18.373736201140026]
本研究では,野生の映像における片方向眼球接触検出の課題に対処する。
私たちのゴールは、任意の入力ビデオの中で、人が視線ターゲットを見ていることを識別できる統一モデルを構築することです。
ラベル付きトレーニングデータの不足により、ラベルなしビデオの擬似ラベルを生成するための視線目標探索法を提案する。
論文 参考訳(メタデータ) (2022-10-05T05:46:40Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。