論文の概要: PoseRefer: Pathway-Local Parameters for Semantically Grounded Reference Resolution
- arxiv url: http://arxiv.org/abs/2605.24622v1
- Date: Sat, 23 May 2026 15:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.278841
- Title: PoseRefer: Pathway-Local Parameters for Semantically Grounded Reference Resolution
- Title(参考訳): PoseRefer:セマンティック・グラウンドド・リファレンス・レゾリューションのための経路局所パラメータ
- Authors: Anna Deichler,
- Abstract要約: MM-Convは、全体モーションキャプチャーと3Dシーングラフとともに、ダイアディックVRインタラクションから自然なコ音声ジェスチャーをキャプチャする。
我々は、ポーズとテキストの経路が学習パラメータを共有できない非結合のレイトフュージョンアーキテクチャを用いて、ポーズ言語融合を評価する。
- 参考スコア(独自算出の注目度): 0.6345523830122167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A robot resolving ``put the cup on that one'' must fuse gesture, language, and scene geometry, yet 3D grounding benchmarks only partially capture this regime: descriptions are written post-hoc, gestures are templated, or pointing is staged for the camera. MM-Conv captures natural co-speech gesture from dyadic VR interaction alongside full-body motion capture and 3D scene graphs. We use it to evaluate pose-language fusion with a decoupled late-fusion architecture in which pose and text pathways share no learned parameters. The two choices together make category, pose, and text contributions easier to isolate through controlled ablations. Fusion with frozen MiniLM category embeddings exceeds pose alone and the best text-only pathway on every reference type, reaching 31.9% top-1. The learned scalar gate flips between opposing policies depending on whether the text pathway has category access. This is a reliability diagnostic: fusion-accuracy claims for semantic grounding systems are indistinguishable from category-representation artifacts unless pathways are architecturally decoupled.
- Abstract(参考訳): しかし、3Dグラウンドのベンチマークは、この仕組みを部分的に捉えているだけである:説明はポストホックで書かれ、ジェスチャーはテンプレート化され、カメラのためにポインティングされる。
MM-Convは、全体モーションキャプチャーと3Dシーングラフとともに、ダイアディックVRインタラクションから自然なコ音声ジェスチャーをキャプチャする。
我々は、ポーズとテキストの経路が学習パラメータを共有できない非結合のレイトフュージョンアーキテクチャを用いて、ポーズ言語融合を評価する。
これら2つの選択は、カテゴリー、ポーズ、テキストのコントリビューションを、制御されたアブレーションを通じて分離しやすくする。
冷凍されたMiniLMカテゴリの埋め込みによる融合は、単独のポーズを超え、すべての参照タイプで最高のテキストのみの経路であり、31.9%のトップ-1に達する。
学習されたスカラーゲートは、テキストパスにカテゴリアクセスがあるかどうかによって、反対のポリシーを切り替える。
セマンティックグラウンドシステムに対する融合精度の主張は、アーキテクチャ的に切り離さない限り、カテゴリ表現アーティファクトと区別できない。
関連論文リスト
- Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors [51.096845970243855]
高忠実度3Dデータの不足により,全体Humanoid-Object Interaction (HOI) がボトルネックとなる。
本研究では,ゼロショットHOIフレームワークであるImagine2Realを提案する。
論文 参考訳(メタデータ) (2026-05-21T10:15:39Z) - Object Pose Transformer: Unifying Unseen Object Pose Estimation [54.20344997573707]
モデルなしのオブジェクトポーズ推定を未知のインスタンスで学習することは、3Dビジョンにおける根本的な課題である。
我々のチームは、RGB入力から深度、ポイントマップ、カメラパラメータ、正規化されたオブジェクト座標を共同で予測します。
当社はカメラ非依存で、カメラ固有の知識をオンザフライで学習し、メトリックスケールリカバリのためのオプションの深度入力をサポートします。
論文 参考訳(メタデータ) (2026-03-24T16:04:16Z) - Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding [12.347557379925039]
我々はtextbf-textbfImage Guided Invariant-textbfFeature-Aware 3D textbfAffordance textbfGrounding frameworkを紹介した。
複数の人間と物体の相互作用画像に共通する相互作用パターンを同定することにより、3Dオブジェクトの空き領域を推定する。
論文 参考訳(メタデータ) (2024-08-23T12:27:33Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - RGB-D Odometry and SLAM [20.02647320786556]
RGB-Dセンサーは低コストで低消費電力で、LiDARのような従来のレンジセンサーの代替品である。
RGBカメラとは異なり、RGB-Dセンサーは3Dシーン再構成のためのフレーム単位の三角測量の必要性を取り除く追加の深度情報を提供する。
本章は3つの主要な部分から構成される: 第一部では、オドメトリーとSLAMの基本概念を紹介し、RGB-Dセンサーの使用を動機づける。
第2部では、カメラポーズトラッキング、シーンマッピング、ループクローズという、SLAMシステムの主要な3つのコンポーネントについて詳述する。
論文 参考訳(メタデータ) (2020-01-19T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。