論文の概要: Understanding Embodied Reference with Touch-Line Transformer
- arxiv url: http://arxiv.org/abs/2210.05668v1
- Date: Tue, 11 Oct 2022 17:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 16:37:46.278552
- Title: Understanding Embodied Reference with Touch-Line Transformer
- Title(参考訳): タッチライントランスを用いたエンボディ参照の理解
- Authors: Yang Li, Xiaoxue Chen, Hao Zhao, Jiangtao Gong, Guyue Zhou, Federico
Rossano, Yixin Zhu
- Abstract要約: 本研究は,具体的ジェスチャー信号と言語参照を用いて,参照者の位置を推定する作業である,具体的参照理解について研究する。
入力トークン化された視覚的特徴とテキスト的特徴を考慮し、参照者のバウンディングボックスとタッチ線ベクトルを同時に予測する。
YouRefItデータセットを用いた実験では,0.75 IoU基準下での精度が+25.0%向上し,モデルと人的パフォーマンスのギャップの63.6%が閉じた。
- 参考スコア(独自算出の注目度): 23.694032921278225
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study embodied reference understanding, the task of locating referents
using embodied gestural signals and language references. Human studies have
revealed that objects referred to or pointed to do not lie on the elbow-wrist
line, a common misconception; instead, they lie on the so-called virtual touch
line. However, existing human pose representations fail to incorporate the
virtual touch line. To tackle this problem, we devise the touch-line
transformer: It takes as input tokenized visual and textual features and
simultaneously predicts the referent's bounding box and a touch-line vector.
Leveraging this touch-line prior, we further devise a geometric consistency
loss that encourages the co-linearity between referents and touch lines. Using
the touch-line as gestural information improves model performances
significantly. Experiments on the YouRefIt dataset show our method achieves a
+25.0% accuracy improvement under the 0.75 IoU criterion, closing 63.6% of the
gap between model and human performances. Furthermore, we computationally
verify prior human studies by showing that computational models more accurately
locate referents when using the virtual touch line than when using the
elbow-wrist line.
- Abstract(参考訳): 本研究は,具体化言語信号と言語参照を用いて参照対象を同定する作業である,具体化参照理解について検討する。
人間の研究によって、言及されたり指されたりした物体は、共通の誤解である肘ひじ線上に存在せず、いわゆる仮想タッチ線上にあることが判明している。
しかし、既存の人間のポーズ表現は仮想タッチラインを組み込むことができない。
この問題を解決するために、タッチライントランスフォーマーを考案し、入力トークン化された視覚およびテキストの特徴として取り、参照者のバウンディングボックスとタッチラインベクトルを同時に予測する。
このタッチラインを前もって活用することで,参照線とタッチ線との共線型性を促進するような幾何学的整合性損失がさらに生まれる。
タッチラインをジェスチャー情報として使用すると、モデルの性能が大幅に向上する。
YouRefItデータセットを用いた実験では,0.75 IoU基準下での精度が+25.0%向上し,モデルと人的パフォーマンスのギャップの63.6%が閉じた。
さらに, 仮想タッチラインを用いた場合よりも, 仮想タッチラインを用いた場合の方が, より正確に参照者を特定できることを示した。
関連論文リスト
- AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding [14.309934655297353]
本稿では,ポインティングジェスチャの誤解釈を緩和する新しいフレームワークであるAttention-Dynamic DINOを紹介する。
提案手法は,視覚的特徴とテキスト的特徴を統合し,対象物体のバウンディングボックスとアテンションソースを同時に予測する。
我々のモデルは、0.25 IoU閾値で76.4%の精度を達成し、特に、IoU閾値での人間のパフォーマンスを上回り、この領域で最初のものである。
論文 参考訳(メタデータ) (2024-11-13T09:14:35Z) - Kalib: Markerless Hand-Eye Calibration with Keypoint Tracking [52.4190876409222]
ハンドアイキャリブレーションでは、カメラとロボット間の変換を推定する。
ディープラーニングの最近の進歩は、マーカーレス技術を提供するが、それらは課題を提示している。
自動的かつ普遍的なマーカーレスハンドアイキャリブレーションパイプラインであるKalibを提案する。
論文 参考訳(メタデータ) (2024-08-20T06:03:40Z) - GEARS: Local Geometry-aware Hand-object Interaction Synthesis [38.75942505771009]
本研究では, 相互作用領域近傍の局所物体形状を推定するための, 結合中心型センサを提案する。
学習の複雑さを軽減するための重要なステップとして、グローバルフレームからテンプレートハンドフレームにポイントを変換し、共有モジュールを使用して各関節のセンサ特徴を処理する。
これに続いて、異なる次元の関節間の相関を捉えることを目的とした知覚時間変換ネットワークが提供される。
論文 参考訳(メタデータ) (2024-04-02T09:18:52Z) - PseudoTouch: Efficiently Imaging the Surface Feel of Objects for Robotic Manipulation [8.997347199266592]
私たちの目標は、ロボットに同じような能力を持たせることです。
我々はこの問題を,低次元視覚触覚埋め込み学習のタスクとして捉えている。
ReSkinを使って、アライメントされた触覚と視覚データペアからなるデータセット上でPseudoTouchを収集し、トレーニングします。
我々はPseudoTouchの有効性を、物体認識と把握安定性予測という2つの下流タスクに適用することで実証する。
論文 参考訳(メタデータ) (2024-03-22T10:51:31Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - Integrated Object Deformation and Contact Patch Estimation from
Visuo-Tactile Feedback [8.420670642409219]
本稿では,ビジュオ触覚フィードバックからオブジェクトの変形と接触パッチを共同でモデル化する表現を提案する。
我々は,NDCFを学習するためのニューラルネットワークアーキテクチャを提案し,シミュレーションデータを用いて学習する。
我々は,学習したNDCFが微調整を必要とせず,直接現実世界に転送されることを実証した。
論文 参考訳(メタデータ) (2023-05-23T18:53:24Z) - Hyperbolic Vision Transformers: Combining Improvements in Metric
Learning [116.13290702262248]
計量学習のための新しい双曲型モデルを提案する。
本手法のコアとなるのは、双曲空間にマッピングされた出力埋め込みを備えた視覚変換器である。
4つのデータセットに6つの異なる定式化を施したモデルの評価を行った。
論文 参考訳(メタデータ) (2022-03-21T09:48:23Z) - Grasp Pre-shape Selection by Synthetic Training: Eye-in-hand Shared
Control on the Hannes Prosthesis [6.517935794312337]
RGB 配列から手形前分類を行うための目印学習方式を提案する。
我々は、人間の腕の軌跡のモデルを用いて、眼球設定の特異性に取り組む。
論文 参考訳(メタデータ) (2022-03-18T09:16:48Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - Physics-Based Dexterous Manipulations with Estimated Hand Poses and
Residual Reinforcement Learning [52.37106940303246]
ノイズの多い入力ポーズをターゲットの仮想ポーズにマッピングするモデルを学習する。
モデルフリーハイブリッドRL+ILアプローチを用いて残留条件下で訓練する。
筆者らは,VRにおける手動物体の相互作用と,それを用いた手動物体の動作再構成という,手動姿勢推定を用いた2つのアプリケーションで,我々のフレームワークを検証した。
論文 参考訳(メタデータ) (2020-08-07T17:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。