論文の概要: Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering
- arxiv url: http://arxiv.org/abs/2603.12533v1
- Date: Fri, 13 Mar 2026 00:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.820141
- Title: Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering
- Title(参考訳): 私が何を指しているか分かるか? ジェスチャに基づくエゴセントリックなビデオ質問に答える
- Authors: Yura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou,
- Abstract要約: EgoPointVQAはジェスチャー中心の質問応答のためのデータセットとベンチマークである。
Hand Intent Tokens (HINT) は、既製の復元モデルを用いて、3Dの手のキーポイントから派生したトークンを符号化する。
我々のモデルは、異なるバックボーンとモデルサイズで他よりも優れています。
- 参考スコア(独自算出の注目度): 81.15678825882692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and answering questions based on a user's pointing gesture is essential for next-generation egocentric AI assistants. However, current Multimodal Large Language Models (MLLMs) struggle with such tasks due to the lack of gesture-rich data and their limited ability to infer fine-grained pointing intent from egocentric video. To address this, we introduce EgoPointVQA, a dataset and benchmark for gesture-grounded egocentric question answering, comprising 4000 synthetic and 400 real-world videos across multiple deictic reasoning tasks. Built upon it, we further propose Hand Intent Tokens (HINT), which encodes tokens derived from 3D hand keypoints using an off-the-shelf reconstruction model and interleaves them with the model input to provide explicit spatial and temporal context for interpreting pointing intent. We show that our model outperforms others in different backbones and model sizes. In particular, HINT-14B achieves 68.1% accuracy, on average over 6 tasks, surpassing the state-of-the-art, InternVL3-14B, by 6.6%. To further facilitate the open research, we will release the code, model, and dataset. Project page: https://yuuraa.github.io/papers/choi2026egovqa
- Abstract(参考訳): ユーザのポインティングジェスチャーに基づいた質問の理解と回答は、次世代のエゴセントリックAIアシスタントにとって不可欠である。
しかし、現在のマルチモーダル大言語モデル(MLLM)は、ジェスチャーに富んだデータがないことと、エゴセントリックなビデオから細粒度のポインティングインテントを推測する能力に制限があるため、このような課題に苦慮している。
この問題を解決するために,複数の難解な推論タスクにまたがる4000の合成ビデオと400の現実世界のビデオを含む,ジェスチャー中心の質問応答のためのデータセットとベンチマークであるEgoPointVQAを紹介した。
さらに,本手法を応用したHINT(Hand Intent Tokens)を提案する。HINT(Hand Intent Tokens)は,3次元手指キーポイントから導出されるトークンを既成の再構成モデルを用いて符号化し,それらをモデル入力とインターリーブすることで,指示意図を解釈するための空間的・時間的コンテキストを提供する。
我々のモデルは、異なるバックボーンとモデルサイズで他よりも優れています。
特にHINT-14Bは6つのタスクで68.1%の精度を達成し、最先端のInternVL3-14Bを6.6%上回っている。
オープンな研究をさらに促進するため、コード、モデル、データセットをリリースします。
プロジェクトページ:https://yuuraa.github.io/papers/choi2026egovqa
関連論文リスト
- EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and
Applications [20.571026014771828]
11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。
私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。
我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
論文 参考訳(メタデータ) (2022-08-07T21:43:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。