論文の概要: MolmoPoint: Better Pointing for VLMs with Grounding Tokens
- arxiv url: http://arxiv.org/abs/2603.28069v1
- Date: Mon, 30 Mar 2026 06:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.254436
- Title: MolmoPoint: Better Pointing for VLMs with Grounding Tokens
- Title(参考訳): MolmoPoint: 接地トークンによるVLMのポイント化
- Authors: Christopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna,
- Abstract要約: 対象概念を含む視覚トークンを直接選択する,より直感的なポインティング機構を提案する。
本モデルでは,入力画像やビデオトークンと交差する特別なポインティングトークンを生成し,適切なトークンを選択する。
この手法を用いて、画像ポインティングに新たな最先端(ポイントベンチに70.7%)を設定し、GUIポインティングに完全にオープンなモデルに新しい最先端(ScreenSpotProに61.1%)を設定し、動画ポインティングを改善する(テキスト座標ベースラインに比較して59.1%)。
- 参考スコア(独自算出の注目度): 54.498877269283206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding has become a fundamental capability of vision-language models (VLMs). Most existing VLMs point by generating coordinates as part of their text output, which requires learning a complicated coordinate system and results in a high token count. Instead, we propose a more intuitive pointing mechanism that directly selects the visual tokens that contain the target concept. Our model generates a special pointing token that cross-attends to the input image or video tokens and selects the appropriate one. To make this model more fine-grained, we follow these pointing tokens with an additional special token that selects a fine-grained subpatch within the initially selected region, and then a third token that specifies a location within that subpatch. We further show that performance improves by generating points sequentially in a consistent order, encoding the relative position of the previously selected point, and including a special no-more-points class when selecting visual tokens. Using this method, we set a new state-of-the-art on image pointing (70.7% on PointBench), set a new state-of-the-art among fully open models on GUI pointing (61.1% on ScreenSpotPro), and improve video pointing (59.1% human preference win rate vs. a text coordinate baseline) and tracking (+6.3% gain on Molmo2Track). We additionally show that our method achieves much higher sample efficiency and discuss the qualitative differences that emerge from this design change.
- Abstract(参考訳): グラウンド化は視覚言語モデル(VLM)の基本機能となっている。
ほとんどの既存のVLMは、テキスト出力の一部として座標を生成し、複雑な座標系を学習し、結果として高いトークン数を得る必要がある。
その代わりに、ターゲット概念を含む視覚トークンを直接選択するより直感的なポインティング機構を提案する。
本モデルでは,入力画像やビデオトークンと交差する特別なポインティングトークンを生成し,適切なトークンを選択する。
このモデルをより細かくするために、これらのポインティングトークンに、初期選択された領域内の細粒度サブパッチを選択する特別なトークンを追加し、次に、そのサブパッチ内の位置を指定する第3のトークンをフォローする。
さらに、一貫した順序で点を逐次生成し、予め選択した点の相対的な位置を符号化し、視覚トークンを選択する際、特別なノーモアポイントクラスを含むことにより、性能が向上することを示す。
この手法を用いて、画像ポインティングに新たな最先端(ポイントベンチに70.7%)を設定し、GUIポインティングに完全にオープンなモデルの中で新しい最先端(ScreenSpotProに61.1%)を設定し、動画ポインティングの改善(テキスト座標ベースラインに59.1%)と追跡(Momo2Trackに+6.3%)を行った。
また,本手法はより高い試料効率を実現することを示し,この設計変化から生じる定性的な相違について考察する。
関連論文リスト
- When LLaVA Meets Objects: Token Composition for Vision-Language-Models [31.554057603168214]
Mask-LLaVAは、様々なレベルの視覚的特徴を活用して、自己回帰視覚言語モデルのためのコンパクトで情報に富んだ視覚表現を作成するフレームワークである。
すべてのトークンはトレーニング中に使用されるが、結果として得られるモデルは、特にテスト時にマスクベースのオブジェクトトークンの数を柔軟に減少させることができる。
分析の結果,マルチレベル機能を組み合わせることで,より少ないトークンで効率的な学習が可能であり,テスト時に動的トークン選択を可能とし,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2026-02-04T18:50:46Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - Talking Points: Describing and Localizing Pixels [17.428135548304308]
画素レベルのグラウンド化のための新しいフレームワークを提案する。
このフレームワークは2つの補完的なコンポーネントで構成されている: 個々のキーポイントのリッチで文脈的な記述を生成するポイント記述子と、これらの記述から正確なピクセル座標を回帰するポイントローカライザである。
論文 参考訳(メタデータ) (2025-10-16T11:42:03Z) - Switch-a-View: View Selection Learned from Unlabeled In-the-wild Videos [71.01549400773197]
ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSWITCH-A-VIEWを紹介する。
トレーニングビデオに擬似ラベルのセグメントを第一の視点に配置する作業を行う。
一方のハウツービデオにおける視覚的コンテンツと音声的コンテンツの間のパターンと,他方のビュー・スウィッチ・モーメントを見出す。
論文 参考訳(メタデータ) (2024-12-24T12:16:43Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Point-McBert: A Multi-choice Self-supervised Framework for Point Cloud
Pre-training [6.037383467521294]
我々は、簡易かつ洗練された監視信号を持つ事前学習フレームワークであるPoint-McBertを提案する。
具体的には、パッチに対する以前の単一選択制約を緩和し、各パッチに対するマルチ選択トークンIDを監督として提供します。
提案手法は,ModelNet40の94.1%の精度,ScanObjectNNの難易度84.28%の精度,および数ショット学習における新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-27T00:34:33Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。