論文の概要: AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding
- arxiv url: http://arxiv.org/abs/2411.08451v1
- Date: Wed, 13 Nov 2024 09:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:14.706362
- Title: AD-DINO: Attention-Dynamic DINO for Distance-Aware Embodied Reference Understanding
- Title(参考訳): AD-DINO: 距離認識型参照理解のための注意動作型DINO
- Authors: Hao Guo, Wei Fan, Baichun Wei, Jianfei Zhu, Jin Tian, Chunzhi Yi, Feng Jiang,
- Abstract要約: 本稿では,ポインティングジェスチャの誤解釈を緩和する新しいフレームワークであるAttention-Dynamic DINOを紹介する。
提案手法は,視覚的特徴とテキスト的特徴を統合し,対象物体のバウンディングボックスとアテンションソースを同時に予測する。
我々のモデルは、0.25 IoU閾値で76.4%の精度を達成し、特に、IoU閾値での人間のパフォーマンスを上回り、この領域で最初のものである。
- 参考スコア(独自算出の注目度): 14.309934655297353
- License:
- Abstract: Embodied reference understanding is crucial for intelligent agents to predict referents based on human intention through gesture signals and language descriptions. This paper introduces the Attention-Dynamic DINO, a novel framework designed to mitigate misinterpretations of pointing gestures across various interaction contexts. Our approach integrates visual and textual features to simultaneously predict the target object's bounding box and the attention source in pointing gestures. Leveraging the distance-aware nature of nonverbal communication in visual perspective taking, we extend the virtual touch line mechanism and propose an attention-dynamic touch line to represent referring gesture based on interactive distances. The combination of this distance-aware approach and independent prediction of the attention source, enhances the alignment between objects and the gesture represented line. Extensive experiments on the YouRefIt dataset demonstrate the efficacy of our gesture information understanding method in significantly improving task performance. Our model achieves 76.4% accuracy at the 0.25 IoU threshold and, notably, surpasses human performance at the 0.75 IoU threshold, marking a first in this domain. Comparative experiments with distance-unaware understanding methods from previous research further validate the superiority of the Attention-Dynamic Touch Line across diverse contexts.
- Abstract(参考訳): 身体的参照理解は、知能エージェントがジェスチャー信号や言語記述を通じて、人間の意図に基づく参照を予測することが不可欠である。
本稿では,様々なインタラクションコンテキストにまたがるポインティングジェスチャの誤解釈を緩和する新しいフレームワークであるAttention-Dynamic DINOを紹介する。
提案手法は,視覚的特徴とテキスト的特徴を統合し,対象物体のバウンディングボックスとアテンションソースを同時に予測する。
視覚的視点における非言語コミュニケーションの遠隔認識の性質を活用し、仮想タッチライン機構を拡張し、対話的距離に基づく参照ジェスチャーを表現するための注意-動的タッチラインを提案する。
この距離認識アプローチと注意源の独立予測の組み合わせにより、オブジェクトとジェスチャー表現線とのアライメントが向上する。
YouRefItデータセットの大規模な実験により,タスク性能を著しく向上させるジェスチャー情報理解手法の有効性が示された。
我々のモデルは0.25 IoU閾値で76.4%の精度を達成し、特に0.75 IoU閾値で人間のパフォーマンスを上回っている。
従来の研究による距離認識理解手法との比較実験により,様々な文脈における注意・動作型タッチラインの優越性をさらに検証した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Text-driven Affordance Learning from Egocentric Vision [6.699930460835963]
ロボットのためのテキスト駆動型アベイランス学習手法を提案する。
我々は,テキストの指示に従って,自我中心の視点から接触点を学習し,軌道を操作することを目的としている。
われわれのアプローチは、現実のシナリオにおける空き学習の新しい標準として、複数の空き時間を扱う。
論文 参考訳(メタデータ) (2024-04-03T07:23:03Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。