論文の概要: CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding
- arxiv url: http://arxiv.org/abs/2507.21888v1
- Date: Tue, 29 Jul 2025 15:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.549554
- Title: CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding
- Title(参考訳): CAPE: 身体的参照理解のための補足型ヒートマップキューのCLIP対応ポインティングアンサンブル
- Authors: Fevziye Irem Eyiokur, Dogucan Yaman, Hazım Kemal Ekenel, Alexander Waibel,
- Abstract要約: 身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
CLIP機能に基づいたハイブリッドアンサンブルを行うCLIP-Aware Pointing Ensembleモジュールを提案する。
- 参考スコア(独自算出の注目度): 55.33317649771575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of Embodied Reference Understanding, which involves predicting the object that a person in the scene is referring to through both pointing gesture and language. Accurately identifying the referent requires multimodal understanding: integrating textual instructions, visual pointing, and scene context. However, existing methods often struggle to effectively leverage visual clues for disambiguation. We also observe that, while the referent is often aligned with the head-to-fingertip line, it occasionally aligns more closely with the wrist-to-fingertip line. Therefore, relying on a single line assumption can be overly simplistic and may lead to suboptimal performance. To address this, we propose a dual-model framework, where one model learns from the head-to-fingertip direction and the other from the wrist-to-fingertip direction. We further introduce a Gaussian ray heatmap representation of these lines and use them as input to provide a strong supervisory signal that encourages the model to better attend to pointing cues. To combine the strengths of both models, we present the CLIP-Aware Pointing Ensemble module, which performs a hybrid ensemble based on CLIP features. Additionally, we propose an object center prediction head as an auxiliary task to further enhance referent localization. We validate our approach through extensive experiments and analysis on the benchmark YouRefIt dataset, achieving an improvement of approximately 4 mAP at the 0.25 IoU threshold.
- Abstract(参考訳): 本研究では,シーン内の人物が指さしている対象を,指さすジェスチャーと言語の両方で予測する「身体的参照理解」の問題に対処する。
正確に参照を識別するには、テキストインストラクション、視覚的ポインティング、シーンコンテキストの統合というマルチモーダルな理解が必要である。
しかし、既存の手法はしばしば、曖昧さの視覚的手がかりを効果的に活用するのに苦労する。
また、レファレントは、しばしばヘッド・トゥ・フィンガートリップ線と一致しているが、時には手首・フィンガートリップ線とより密接に一致していることも観察した。
したがって、単行の仮定に依存することは過度に単純化され、最適以下の性能をもたらす可能性がある。
そこで本研究では,片方のモデルが頭指先方向から学習し,もう片方のモデルが手指先方向から学習する2重モデルフレームワークを提案する。
さらに、これらのラインのガウス線熱マップ表現を導入し、それらを入力として使用し、強力な監視信号を提供することにより、モデルがポインティングキューによりよく参加するように促す。
両モデルの長所を組み合わせるために,CLIP機能に基づいたハイブリッドアンサンブルを実行するCLIP-Aware Pointing Ensembleモジュールを提案する。
また,オブジェクト中心予測ヘッドを補助タスクとして提案し,参照ローカライゼーションをさらに強化する。
我々は、ベンチマークYouRefItデータセットの広範な実験と分析を通じてアプローチを検証し、0.25IoU閾値で約4mAPの改善を実現した。
関連論文リスト
- PointCG: Self-supervised Point Cloud Learning via Joint Completion and Generation [32.04698431036215]
本稿では,マスク付きポイントモデリング(MPM)と3D-to-2D生成という2つの一般的な手法を,事前学習フレームワーク内にプリテキストタスクとして統合する。
我々はこれらの2つの手法によって提供される空間的認識と精密な監督を活用して、それぞれの限界に対処する。
論文 参考訳(メタデータ) (2024-11-09T02:38:29Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Exploiting Point-Wise Attention in 6D Object Pose Estimation Based on
Bidirectional Prediction [22.894810893732416]
本稿では,ポイントワイズ対応機構を備えた双方向対応予測ネットワークを提案する。
私たちの重要な洞察は、各モデルポイントとシーンポイントの相関が、ポイントペアマッチの学習に不可欠な情報を提供するということです。
LineMOD, YCB-Video, Occ-LineMODの公開データセットに対する実験結果から, 提案手法が他の最先端手法よりも優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-16T17:13:45Z) - Line Graph Contrastive Learning for Link Prediction [4.876567687745239]
多視点情報を得るために,Line Graph Contrastive Learning (LGCL)法を提案する。
6つの公開データセットの実験により、LGCLはリンク予測タスクの現在のベンチマークを上回っている。
論文 参考訳(メタデータ) (2022-10-25T06:57:00Z) - Weakly Supervised Video Salient Object Detection via Point Supervision [18.952253968878356]
本稿では,点監督に基づく強力なベースラインモデルを提案する。
経時的情報でサリエンシマップを推定するために, 短期・長期の観点から, フレーム間補完情報を抽出する。
DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。
論文 参考訳(メタデータ) (2022-07-15T03:31:15Z) - Rethinking Counting and Localization in Crowds:A Purely Point-Based
Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。
我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文 参考訳(メタデータ) (2021-07-27T11:41:50Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - Articulation-aware Canonical Surface Mapping [54.0990446915042]
本研究では,2次元画素から標準テンプレート形状の対応する点へのマッピングを示すCSM(Canonical Surface Mapping)を予測し,入力画像に対応するテンプレートの調音とポーズを推定するタスクに取り組む。
我々の重要な洞察は、これらのタスクは幾何学的に関連しており、予測間の一貫性を強制することで、監視信号を得ることができることである。
我々は,有意な調音学習において,調音がより正確なCSM予測の学習に役立ち,予測されたCSMとの整合性が重要であることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-01T17:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。