論文の概要: From Speech-to-Spatial: Grounding Utterances on A Live Shared View with Augmented Reality
- arxiv url: http://arxiv.org/abs/2602.03059v1
- Date: Tue, 03 Feb 2026 03:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.225753
- Title: From Speech-to-Spatial: Grounding Utterances on A Live Shared View with Augmented Reality
- Title(参考訳): 音声から空間へ:拡張現実を用いたライブ共有ビューにおける接地発話
- Authors: Yoonsang Kim, Divyansh Pradhan, Devshree Jadeja, Arie Kaufman,
- Abstract要約: 音声参照(音声入力)のみから目的を推定する音声対空間的推論
発話が与えられた場合、参照キューはパースされ、永続的なARビジュアルガイダンスとして描画される。
評価の結果,Spatialは作業効率の向上,認知負荷の低減,ユーザビリティの向上を実現している。
- 参考スコア(独自算出の注目度): 1.709128627054936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Speech-to-Spatial, a referent disambiguation framework that converts verbal remote-assistance instructions into spatially grounded AR guidance. Unlike prior systems that rely on additional cues (e.g., gesture, gaze) or manual expert annotations, Speech-to-Spatial infers the intended target solely from spoken references (speech input). Motivated by our formative study of speech referencing patterns, we characterize recurring ways people specify targets (Direct Attribute, Relational, Remembrance, and Chained) and ground them to our object-centric relational graph. Given an utterance, referent cues are parsed and rendered as persistent in-situ AR visual guidance, reducing iterative micro-guidance ("a bit more to the right", "now, stop.") during remote guidance. We demonstrate the use cases of our system with remote guided assistance and intent disambiguation scenarios. Our evaluation shows that Speechto-Spatial improves task efficiency, reduces cognitive load, and enhances usability compared to a conventional voice-only baseline, transforming disembodied verbal instruction into visually explainable, actionable guidance on a live shared view.
- Abstract(参考訳): 本稿では,音声による遠隔操作を空間的ベースとしたARガイダンスに変換する,参照型不明瞭化フレームワークであるSpeech-to-Spatialを紹介する。
追加の手がかり(例えば、ジェスチャー、視線)や手動のエキスパートアノテーションに依存する従来のシステムとは異なり、音声から音声への空間的アノテーションは、音声参照(音声入力)からのみ対象を推測する。
音声参照パターンのフォーマティブな研究により、ターゲット(ダイレクト属性、リレーショナル、リレーショナル、リマナンス、チェインド)を指定し、オブジェクト中心のリレーショナルグラフにグルーピングする方法を特徴付ける。
発話が与えられた場合、参照キューは永続的なARビジュアルガイダンスとして解析され、リモートガイダンス中に反復的マイクロガイダンス("a bit to the right", "now, stop.")を減らす。
遠隔誘導支援と意図的曖昧化シナリオを用いて,本システムの利用事例を実証する。
本評価は,従来の音声のみのベースラインに比べて作業効率が向上し,認知負荷が低減し,ユーザビリティが向上することを示す。
関連論文リスト
- Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement [23.974815078687445]
クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
論文 参考訳(メタデータ) (2023-01-11T10:20:56Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。