論文の概要: Getting to the Point: Why Pointing Improves LVLMs
- arxiv url: http://arxiv.org/abs/2603.21746v1
- Date: Mon, 23 Mar 2026 09:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.591977
- Title: Getting to the Point: Why Pointing Improves LVLMs
- Title(参考訳): 要点:なぜポインティングがLVLMを改善するのか
- Authors: Simone Alghisi, Massimo Rizzoli, Seyed Mahed Mousavi, Giuseppe Riccardi,
- Abstract要約: 視覚的な場面からゼロショットカウントする認知的タスクを指差す役割について検討する。
我々は、直接カウントとポイント・ザ・クーントの2つのアプローチに従って、最先端のLVLMを微調整する。
その結果,Point-then-Countは,LVLMが狭いタスクに過度に適合するのではなく,学習スキルの学習を支援することが示唆された。
- 参考スコア(独自算出の注目度): 1.5282767384702272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pointing increases the accuracy and explainability of Large Vision-Language Models (LVLMs) by modeling grounding and reasoning as explicit sequential steps. The model grounds the objects mentioned in the natural-language query by predicting their coordinates, and then generates an answer conditioned on these points. While pointing has been shown to increase LVLMs' accuracy, it is unclear which mechanism supports these gains and its relevance in cognitive tasks. In addition, the reliability of the intermediate points remains understudied, limiting their use as visual explanations. In this work, we study the role of pointing in a cognitive task: zero-shot counting from a visual scene. We fine-tune state-of-the-art LVLMs following two approaches: Direct Counting, where models only predict the total number of objects, and Point-then-Count, where LVLMs generate the target objects' coordinates followed by their count. The results show that Point-then-Count achieves higher out-of-distribution generalization, suggesting that coordinates help LVLMs learn skills rather than overfitting on narrow tasks. Although predicted points are accurately grounded in the image in over 89\% of cases (as measured by F1), performance varies across image regions, revealing spatial biases. Finally, mechanistic analyses show that gains in counting arise from the spatial information encoded in the coordinates.
- Abstract(参考訳): ポインティングは、グラウンドディングと推論を明示的な逐次ステップとしてモデル化することにより、LVLM(Large Vision-Language Models)の精度と説明可能性を高める。
モデルは、それらの座標を予測して自然言語クエリで言及されたオブジェクトをグラウンド化し、これらの点に条件付きで回答を生成する。
ポインティングはLVLMの精度を高めることが示されているが、これらの獲得を支援するメカニズムと認知タスクとの関連性は明らかではない。
加えて、中間点の信頼性は未検討であり、視覚的説明としての使用を制限する。
本研究では,視覚シーンからのゼロショットカウント(ゼロショットカウント)という認知課題を指差す役割について検討する。
モデルが対象物の総数だけを予測するダイレクトカウントと、LVLMが対象のオブジェクトの座標を生成し、その数を生成するポイント−then-Countの2つのアプローチに従って、最先端のLVLMを微調整する。
その結果,Point-then-Countは,LVLMが狭いタスクに過度に適合するのではなく,学習スキルの学習を支援することが示唆された。
予測点は99%以上のケース(F1で測定された)で画像に正確に接地されるが、画像領域によって性能が異なり、空間バイアスが明らかになる。
最後に、メカニスティック解析により、座標に符号化された空間情報からカウントのゲインが生じることを示した。
関連論文リスト
- Counting Circuits: Mechanistic Interpretability of Visual Reasoning in Large Vision-Language Models [35.71430064413904]
カウントは、LVLM(Large Vision-Language Model)推論の強力なテストとして機能する。
その結果,LVLMは人間的なカウント動作を示し,小数量での精度の高い性能と,大量でのノイズ評価が可能であることがわかった。
本稿では,単純かつ豊富に利用可能な合成画像を利用して任意の事前学習LVLMを微調整する,軽量な介入戦略を提案する。
論文 参考訳(メタデータ) (2026-03-19T06:10:10Z) - From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization [0.0]
オブジェクトマップ上のローカライズのための最も有望なアプローチの1つは、セマンティックグラフマッチングを使用することである。
従来の問題に対処するために、視覚言語モデルを用いた対応マッチングを強化する。
さらに、inlierはグラフ理論のアプローチを用いて決定的に推定される。
論文 参考訳(メタデータ) (2024-10-04T00:23:20Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Learning Where to Learn in Cross-View Self-Supervised Learning [54.14989750044489]
自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。
現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。
本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:02:42Z) - Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings [17.04471874483516]
既存のアプローチでは、1つのフォワードパスに密なキーポイントの埋め込みを計算するか、その全容量をスパースポイントのセットに割り当てる。
本稿では,ある時点における関連点数が典型的には少ないという観測に基づいて,中間点を探索する。
私たちの主な貢献は、キーポイント埋め込みでスパーススタイルのネットワークを条件付けることができる、少数ショットタスク適応にインスパイアされた、新しいアーキテクチャです。
論文 参考訳(メタデータ) (2021-12-09T13:25:42Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。