論文の概要: Scaling Test-time Inference for Visual Grounding
- arxiv url: http://arxiv.org/abs/2601.13633v1
- Date: Tue, 20 Jan 2026 06:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.178096
- Title: Scaling Test-time Inference for Visual Grounding
- Title(参考訳): 視覚的グラウンド化のためのテスト時間推論のスケーリング
- Authors: Guanqi Zhan, Changye Li, Zhijian Liu, Yao Lu, Yi Wu, Song Han, Ligeng Zhu,
- Abstract要約: 効率的な視覚的接地言語モデル (EGM) は、小さなモデルのテスト時間計算をスケールする手法である。
小さなモデルのテストタイムの計算をスケールすることは、デプロイメントフレンドリで、エンドツーエンドのレイテンシが向上します。
EGM-Qwen3-VL-8Bは平均737ms (5.9倍高速)の遅延を持つ91.4IoUを示し、Qwen3-VL-235Bは90.5IoUを達成するために4,320msを要求する。
- 参考スコア(独自算出の注目度): 23.80116923122471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding is an essential capability of Visual Language Models (VLMs) to understand the real physical world. Previous state-of-the-art grounding visual language models usually have large model sizes, making them heavy for deployment and slow for inference. However, we notice that the sizes of visual encoders are nearly the same for small and large VLMs and the major difference is the sizes of the language models. Small VLMs fall behind larger VLMs in grounding because of the difference in language understanding capability rather than visual information handling. To mitigate the gap, we introduce 'Efficient visual Grounding language Models' (EGM): a method to scale the test-time computation (#generated tokens). Scaling the test-time computation of a small model is deployment-friendly, and yields better end-to-end latency as the cost of each token is much cheaper compared to directly running a large model. On the RefCOCO benchmark, our EGM-Qwen3-VL-8B demonstrates 91.4 IoU with an average of 737ms (5.9x faster) latency while Qwen3-VL-235B demands 4,320ms to achieve 90.5 IoU. To validate our approach's generality, we further set up a new amodal grounding setting that requires the model to predict both the visible and occluded parts of the objects. Experiments show our method can consistently and significantly improve the vanilla grounding and amodal grounding capabilities of small models to be on par with or outperform the larger models, thereby improving the efficiency for visual grounding.
- Abstract(参考訳): ビジュアルグラウンドティングは、ビジュアル言語モデル(VLM)が現実世界を理解する上で不可欠な機能である。
従来の最先端の基盤となるビジュアル言語モデルは、通常、大きなモデルサイズを持ち、デプロイには重く、推論には遅い。
しかし,大小のVLMでは視覚エンコーダのサイズはほぼ同じであり,大きな違いは言語モデルのサイズである。
小さなVLMは、視覚情報処理よりも言語理解能力が異なるため、接地時に大きなVLMに遅れる。
このギャップを軽減するために,テスト時間計算(# generated tokens)をスケールする「効率的な視覚接地言語モデル(EGM)」を導入する。
小さなモデルのテストタイムの計算をスケールすることは、デプロイメントフレンドリであり、各トークンのコストが大きなモデルを直接実行するよりもはるかに安いため、エンドツーエンドのレイテンシが向上します。
RefCOCOベンチマークでは、EGM-Qwen3-VL-8Bが平均737ms (5.9倍高速)のレイテンシを持つ91.4 IoUを示し、Qwen3-VL-235Bは4,320msで90.5IoUを達成する。
アプローチの一般性を検証するため,物体の可視部と隠蔽部の両方を予測するために,新たなアモーダルグラウンド設定を新たに設定した。
実験により, 小型モデルのバニラ接地性能とアモーダル接地性能は, より大型のモデルと同程度に向上し, 視覚接地効率を向上できることが示された。
関連論文リスト
- DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models [105.7362622712606]
大規模マルチモーダルモデル(LMM)のグラウンド化能力はますます認識されている。
問題は、グラウンドド・ビジュアル・チャット(GVC)のためのデータセットがないことだ。
私たちはグラウンドとチャット機能を組み合わせられるGVCデータを作成しました。
我々のモデルは、RefCOCO/+/gやFlickr30K Entitiesのような古典的なグラウンドベンチマーク上での競合性能を実現している。
論文 参考訳(メタデータ) (2023-12-05T18:29:31Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。