論文の概要: Test-Time Computing for Referring Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.19505v1
- Date: Mon, 23 Feb 2026 04:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.677315
- Title: Test-Time Computing for Referring Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデル参照のためのテスト時間計算
- Authors: Mingrui Wu, Hao Chen, Jiayi Ji, Xiaoshuai Sun, Zhiyuan Liu, Liujuan Cao, Ming-Ming Cheng, Rongrong Ji,
- Abstract要約: そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。
学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
- 参考スコア(独自算出の注目度): 143.49848714354698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ControlMLLM++, a novel test-time adaptation framework that injects learnable visual prompts into frozen multimodal large language models (MLLMs) to enable fine-grained region-based visual reasoning without any model retraining or fine-tuning. Leveraging the insight that cross-modal attention maps intrinsically encode semantic correspondences between textual tokens and visual regions, ControlMLLM++ optimizes a latent visual token modifier during inference via a task-specific energy function to steer model attention towards user-specified areas. To enhance optimization stability and mitigate language prompt biases, ControlMLLM++ incorporates an improved optimization strategy (Optim++) and a prompt debiasing mechanism (PromptDebias). Supporting diverse visual prompt types including bounding boxes, masks, scribbles, and points, our method demonstrates strong out-of-domain generalization and interpretability. The code is available at https://github.com/mrwu-mac/ControlMLLM.
- Abstract(参考訳): 学習可能な視覚的プロンプトを凍ったマルチモーダル大言語モデル(MLLM)に注入し、モデルの再学習や微調整なしに、きめ細かな領域ベースの視覚的推論を可能にする新しいテスト時適応フレームワークであるCrutMLLM++を提案する。
ControlMLLM++は、テキストトークンと視覚領域間の意味的対応を本質的にエンコードするクロスモーダルアテンションマップの洞察を活用し、タスク固有のエネルギ関数を介して推論中に潜時的な視覚トークン修飾子を最適化し、ユーザ特定領域に注意を向ける。
ControlMLLM++は最適化の安定性を高め、言語のプロンプトバイアスを軽減するため、改良された最適化戦略(Optim++)とプロンプトデバイアス機構(PromptDebias)を取り入れている。
境界ボックス,マスク,スクリブル,点を含む多様な視覚的プロンプト型をサポートし,領域外一般化と解釈可能性を示す。
コードはhttps://github.com/mrwu-mac/ControlMLLMで公開されている。
関連論文リスト
- ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。