論文の概要: Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision
- arxiv url: http://arxiv.org/abs/2603.26646v1
- Date: Fri, 27 Mar 2026 17:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.624289
- Title: Beyond Language: Grounding Referring Expressions with Hand Pointing in Egocentric Vision
- Title(参考訳): 言語を超えて: 自我中心視における手指による表現の接地
- Authors: Ling Li, Bowen Liu, Zinuo Zhan, Peng Jie, Jianhui Zhong, Kenglun Chang, Zhidong Deng,
- Abstract要約: EgoPoint-Thoughtは、egocentric deictic visual grounding専用の、最初の大規模なマルチモーダルデータセットである。
手動のバウンディングボックスペアや密集したセマンティックキャプションを含む、リッチで多義的なアノテーションを提供する。
提案するSV-CoTは,構造的推論プロセスとしてグラウンド化を再構成する新しいベースラインフレームワークである。
- 参考スコア(独自算出の注目度): 13.21187394955871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Visual Grounding (VG) predominantly relies on textual descriptions to localize objects, a paradigm that inherently struggles with linguistic ambiguity and often ignores non-verbal deictic cues prevalent in real-world interactions. In natural egocentric engagements, hand-pointing combined with speech forms the most intuitive referring mechanism. To bridge this gap, we introduce EgoPoint-Ground, the first large-scale multimodal dataset dedicated to egocentric deictic visual grounding. Comprising over \textbf{15k} interactive samples in complex scenes, the dataset provides rich, multi-grained annotations including hand-target bounding box pairs and dense semantic captions. We establish a comprehensive benchmark for hand-pointing referring expression resolution, evaluating a wide spectrum of mainstream Multimodal Large Language Models (MLLMs) and state-of-the-art VG architectures. Furthermore, we propose SV-CoT, a novel baseline framework that reformulates grounding as a structured inference process, synergizing gestural and linguistic cues through a Visual Chain-of-Thought paradigm. Extensive experiments demonstrate that SV-CoT achieves an $\textbf{11.7\%}$ absolute improvement over existing methods, effectively mitigating semantic ambiguity and advancing the capability of agents to comprehend multimodal physical intents. The dataset and code will be made publicly available.
- Abstract(参考訳): 伝統的なビジュアルグラウンディング(VG)は、主にオブジェクトをローカライズするためのテキスト記述に依存している。
自然な自我中心のエンゲージメントでは、手指と音声を組み合わせることが最も直感的な参照機構となる。
このギャップを埋めるために、エゴセントリックな視覚的接地に特化した最初の大規模マルチモーダルデータセットであるEgoPoint-Groundを紹介します。
複雑なシーンで \textbf{15k} のインタラクティブなサンプルを補完するデータセットは、ハンドターゲットのバウンディングボックスペアや密度の高いセマンティックキャプションを含む、リッチで多義的なアノテーションを提供する。
我々は,手指による参照表現解決のための包括的なベンチマークを構築し,MLLM(Multimodal Large Language Models)と最先端のVGアーキテクチャの幅広いスペクトルを評価した。
さらに,構造的推論プロセスとして基盤を再構築する新しいベースラインフレームワークであるSV-CoTを提案する。
SV-CoTは既存の手法に対して$\textbf{11.7\%}$絶対的な改善を達成し、意味的曖昧さを効果的に軽減し、マルチモーダルな物理的意図を理解するエージェントの能力を向上させることを実証した。
データセットとコードは公開されます。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments [0.0]
本研究では,事前学習した視覚エンコーダと大規模言語モデルを統一する視覚言語統合フレームワークを提案する。
提案システムでは,トップ1の精度が最大18%向上し,セマンティック・コヒーレンス・メトリクスが顕著に向上した。
論文 参考訳(メタデータ) (2025-10-29T01:16:21Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [19.241274582769037]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文 参考訳(メタデータ) (2025-06-20T14:57:41Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。