論文の概要: Talking Points: Describing and Localizing Pixels
- arxiv url: http://arxiv.org/abs/2510.14583v1
- Date: Thu, 16 Oct 2025 11:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.833456
- Title: Talking Points: Describing and Localizing Pixels
- Title(参考訳): 講演ポイント:Pixelの説明とローカライズ
- Authors: Matan Rusanovsky, Shimon Malnick, Shai Avidan,
- Abstract要約: 画素レベルのグラウンド化のための新しいフレームワークを提案する。
このフレームワークは2つの補完的なコンポーネントで構成されている: 個々のキーポイントのリッチで文脈的な記述を生成するポイント記述子と、これらの記述から正確なピクセル座標を回帰するポイントローカライザである。
- 参考スコア(独自算出の注目度): 17.428135548304308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have achieved remarkable success in cross-modal understanding. Yet, these models remain limited to object-level or region-level grounding, lacking the capability for pixel-precise keypoint comprehension through natural language. We introduce a novel framework for pixel level grounding. The framework consists of two complementary components: a Point Descriptor that generates rich, contextual descriptions of individual keypoints, and a Point Localizer that regresses precise pixel coordinates from these descriptions. Unlike prior work that relies on templated prompts or keypoint names, our approach produces free-form, coarse-to-fine descriptions that situate keypoints within their visual context. Since there is no available dataset to train such a system, we introduce LlamaPointInPart, a carefully curated dataset of 20K+ image-keypoint-description triplets synthesized from multiple vision-language models, capturing multi-scale information from scene-level context to visual features around the keypoint. For cross-category generalization, we optimize the Point Descriptor on AP-10K via GRPO, using the frozen Point Localizer as a reward model to produce descriptions that maximize localization accuracy. To evaluate our results we establish a new evaluation protocol. Instead of comparing the text description produced by our method to the ground truth, we use the localizer to determine how close is the predicted point generated to the ground truth point. Experiments demonstrate superior performance compared to baseline models on LlamaPointInPart.The bidirectional nature of our framework should enable future applications in both keypoint-guided image understanding and language-guided precise localization. Our code and dataset are publicly available at https://github.com/matanr/Talking_Points.
- Abstract(参考訳): 視覚言語モデルは、クロスモーダル理解において顕著な成功を収めた。
しかし、これらのモデルは依然としてオブジェクトレベルや領域レベルのグラウンド化に限られており、自然言語による画素精度のキーポイント理解能力が欠如している。
画素レベルのグラウンド化のための新しいフレームワークを提案する。
このフレームワークは2つの補完的なコンポーネントで構成されている: 個々のキーポイントのリッチで文脈的な記述を生成するポイント記述子と、これらの記述から正確なピクセル座標を回帰するポイントローカライザである。
テンプレート化されたプロンプトやキーポイント名に依存する以前の作業とは異なり、我々のアプローチは、キーポイントを視覚的コンテキスト内に配置する、自由で粗い記述を生成する。
このようなシステムをトレーニングするためのデータセットが存在しないため、複数の視覚言語モデルから合成された20K以上の画像キーポイント記述三重項を慎重にキュレートしたデータセットであるLlamaPointInPartを導入し、シーンレベルのコンテキストからキーポイント周辺の視覚的特徴までのマルチスケール情報をキャプチャする。
クロスカテゴリの一般化のために,凍ったポイントローカライザを報酬モデルとして用いて,AP-10K上のポイントディスクリプタをGRPOで最適化し,ローカライズ精度を最大化する記述を生成する。
結果を評価するため,我々は新たな評価プロトコルを構築した。
提案手法が生成したテキスト記述を基底真理と比較する代わりに,ローカライザを用いて基底真理点に生成した予測点がどの程度近いかを決定する。
実験はLlamaPointInPartのベースラインモデルよりも優れた性能を示しており、我々のフレームワークの双方向性は、キーポイント誘導画像理解と言語誘導正確なローカライゼーションの両方において将来の応用を可能にする。
私たちのコードとデータセットはhttps://github.com/matanr/Talking_Points.comで公開されています。
関連論文リスト
- CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [56.30142869506262]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
我々は、ベンチマークYouRefItデータセットの広範な実験と分析を通じてアプローチを検証し、0.25IoU閾値で約4mAPの改善を実現した。
論文 参考訳(メタデータ) (2025-07-29T15:00:21Z) - LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model [52.35027502274539]
LocLLMはLarge-Language Modelベースのキーポイントローカライゼーションモデルである。
入力として画像とテキストの命令を受け取り、所望のキーポイント座標を出力する。
標準的な2D/3Dキーポイントローカライゼーションベンチマークでは顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-07T05:58:35Z) - Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding [11.416392706435415]
ゼロショット3Dポイントクラウド理解は2Dビジョンランゲージモデル(VLM)によって達成できる
既存の戦略は、ヴィジュアル・ランゲージ・モデル(Vision-Language Model)をレンダリングまたはキャプチャされた2Dピクセルから3Dポイントにマッピングし、固有かつ表現可能な雲の幾何学構造を見渡す。
本稿では, 点雲の3次元幾何学的構造を利用して, 移動したビジョン・ランゲージモデルの品質を向上させるための, 初となるトレーニングフリーアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T12:30:07Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Few-shot Geometry-Aware Keypoint Localization [13.51645400661565]
意味的に一貫したキーポイント定義をローカライズすることを学ぶ新しい定式化を提案する。
ユーザラベル付き2D画像を入力例として使用し、セルフスーパービジョンで拡張する。
鍵点を昇華するために3次元幾何学的制約を導入し、より正確な2次元ローカライゼーションを実現する。
論文 参考訳(メタデータ) (2023-03-30T08:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。