論文の概要: Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time
- arxiv url: http://arxiv.org/abs/2603.07966v1
- Date: Mon, 09 Mar 2026 05:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.497646
- Title: Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time
- Title(参考訳): 目で聞く: 空間と時間にまたがるEgocentric Co-Speechグラウンドのベンチマーク
- Authors: Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang,
- Abstract要約: 我々は,高密度空間アノテーションとミリ秒レベルの脳卒中管理を備えたtextbf811エゴセントリッククリップの診断ベンチマークである textbfEcoG-Bench を提案する。
最先端MLLMのベンチマークでは、厳しい実行可能性のギャップが明らかになっている。
マルチモーダルインタフェースは、モデル推論とは独立して、時間的アライメントキューの可観測性をボトルネックにする可能性がある。
- 参考スコア(独自算出の注目度): 36.493701506207806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In situated collaboration, speakers often use intentionally underspecified deictic commands (e.g., ``pass me \textit{that}''), whose referent becomes identifiable only by aligning speech with a brief co-speech pointing \emph{stroke}. However, many embodied benchmarks admit language-only shortcuts, allowing MLLMs to perform well without learning the \emph{audio--visual alignment} required by deictic interaction. To bridge this gap, we introduce \textbf{Egocentric Co-Speech Grounding (EcoG)}, where grounding is executable only if an agent jointly predicts \textit{What}, \textit{Where}, and \textit{When}. To operationalize this, we present \textbf{EcoG-Bench}, an evaluation-only bilingual (EN/ZH) diagnostic benchmark of \textbf{811} egocentric clips with dense spatial annotations and millisecond-level stroke supervision. It is organized under a \textbf{Progressive Cognitive Evaluation} protocol. Benchmarking state-of-the-art MLLMs reveals a severe executability gap: while human subjects achieve near-ceiling performance on EcoG-Bench (\textbf{96.9\%} strict Eco-Accuracy), the best native video-audio setting remains low (Gemini-3-Pro: \textbf{17.0\%}). Moreover, in a diagnostic ablation, replacing the native video--audio interface with timestamped frame samples and externally verified ASR (with word-level timing) substantially improves the same model (\textbf{17.0\%}$\to$\textbf{42.9\%}). Overall, EcoG-Bench provides a strict, executable testbed for event-level speech--gesture binding, and suggests that multimodal interfaces may bottleneck the observability of temporal alignment cues, independently of model reasoning.
- Abstract(参考訳): 位置付けられた共同作業において、話者は意図的に不特定なdeicticコマンド(例: ``pass me \textit{that}'')を使用する。
しかし、多くの具現化されたベンチマークでは言語のみのショートカットを認めており、MLLMはデリケートな相互作用によって要求される「emph{audio--visual alignment}」を学習することなく、うまく機能する。
このギャップを埋めるために、エージェントが共同で \textit{What} 、 \textit{Where} 、 \textit{When} を予測した場合にのみグラウンドが実行可能である \textbf{Egocentric Co-Speech Grounding (EcoG)} を導入する。
そこで我々は,高密度な空間アノテーションとミリ秒レベルの脳卒中管理を備えた,評価専用バイリンガル (EN/ZH) 診断ベンチマークである \textbf{EcoG-Bench} を提案する。
これは \textbf{Progressive Cognitive Evaluation} プロトコルで構成されている。
EcoG-Bench(\textbf{96.9\%} 厳密なEco-Accuracy)上で、人間の被験者がほぼシーリングのパフォーマンスを達成する一方で、最高のネイティブビデオオーディオ設定は依然として低い(Gemini-3-Pro: \textbf{17.0\%})。
さらに、診断アブレーションでは、ネイティブビデオオーディオインタフェースをタイムスタンプフレームのサンプルに置き換え、(単語レベルのタイミングで)外部で検証されたASRに置き換えることで、同じモデルが大幅に改善される(\textbf{17.0\%}$\to$\textbf{42.9\%})。
全体として、EcoG-Benchは、イベントレベルの音声-ジェスチャー結合のための厳密で実行可能なテストベッドを提供しており、モデル推論とは無関係に、時間的アライメントキューの観測可能性を妨げる可能性があることを示唆している。
関連論文リスト
- Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs [15.914430317382077]
音声とテキストの表現が階層的にどのように進化するかを分析する。
音声表現は、冗長な音声の性質に起因して、広い層間アライメントバンドを示す。
論文 参考訳(メタデータ) (2026-03-02T06:21:43Z) - Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。
フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。
提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文 参考訳(メタデータ) (2026-03-02T03:06:40Z) - Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech [61.00008468914252]
本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。
ベンチマークは、伝統的に段落のセグメンテーションが後処理の一部ではない未調査の音声領域に焦点を当てている。
第二に、制約付き復号法を提案し、大言語モデルが原文を保存しながら段落を挿入できるようにする。
第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
論文 参考訳(メタデータ) (2025-12-30T23:29:51Z) - Stepwise Decomposition and Dual-stream Focus: A Novel Approach for Training-free Camouflaged Object Segmentation [9.862714096455175]
我々は、textbfMultimodal textbfStepwise textbfDecomposition Chain of Thought (MSD-CoT) を介して textbfRegion-constrained textbfDual-stream textbfVisual textbfPrompting (RDVP) を相乗化する新しいトレーニングフリーなテスト時間適応フレームワークを提案する。
RDVPは、前景と背景点の視覚的プロンプトを視覚的および独立的にサンプリングする空間的制約を注入し、意味的相違を効果的に緩和する
論文 参考訳(メタデータ) (2025-06-07T14:50:26Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - Semantic Lens: Instance-Centric Semantic Alignment for Video
Super-Resolution [36.48329560039897]
フレーム間アライメントはビデオ超解像(VSR)の重要な手がかりである
本稿では,セマンティックレンズ(Semantic Lens)という,VSRのための新しいパラダイムを提案する。
ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
論文 参考訳(メタデータ) (2023-12-13T01:16:50Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。