Fugu-MT 論文翻訳(概要): Test-Time Computing for Referring Multimodal Large Language Models

論文の概要: Test-Time Computing for Referring Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2602.19505v1
Date: Mon, 23 Feb 2026 04:42:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.677315
Title: Test-Time Computing for Referring Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデル参照のためのテスト時間計算
Authors: Mingrui Wu, Hao Chen, Jiayi Ji, Xiaoshuai Sun, Zhiyuan Liu, Liujuan Cao, Ming-Ming Cheng, Rongrong Ji,
Abstract要約: そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
参考スコア（独自算出の注目度）: 143.49848714354698
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose ControlMLLM++, a novel test-time adaptation framework that injects learnable visual prompts into frozen multimodal large language models (MLLMs) to enable fine-grained region-based visual reasoning without any model retraining or fine-tuning. Leveraging the insight that cross-modal attention maps intrinsically encode semantic correspondences between textual tokens and visual regions, ControlMLLM++ optimizes a latent visual token modifier during inference via a task-specific energy function to steer model attention towards user-specified areas. To enhance optimization stability and mitigate language prompt biases, ControlMLLM++ incorporates an improved optimization strategy (Optim++) and a prompt debiasing mechanism (PromptDebias). Supporting diverse visual prompt types including bounding boxes, masks, scribbles, and points, our method demonstrates strong out-of-domain generalization and interpretability. The code is available at https://github.com/mrwu-mac/ControlMLLM.
Abstract（参考訳）: 学習可能な視覚的プロンプトを凍ったマルチモーダル大言語モデル(MLLM)に注入し、モデルの再学習や微調整なしに、きめ細かな領域ベースの視覚的推論を可能にする新しいテスト時適応フレームワークであるCrutMLLM++を提案する。 ControlMLLM++は、テキストトークンと視覚領域間の意味的対応を本質的にエンコードするクロスモーダルアテンションマップの洞察を活用し、タスク固有のエネルギ関数を介して推論中に潜時的な視覚トークン修飾子を最適化し、ユーザ特定領域に注意を向ける。 ControlMLLM++は最適化の安定性を高め、言語のプロンプトバイアスを軽減するため、改良された最適化戦略(Optim++)とプロンプトデバイアス機構(PromptDebias)を取り入れている。境界ボックス,マスク,スクリブル,点を含む多様な視覚的プロンプト型をサポートし,領域外一般化と解釈可能性を示す。コードはhttps://github.com/mrwu-mac/ControlMLLMで公開されている。

関連論文リスト

Multi-Step Visual Reasoning with Visual Tokens Scaling and Verification [22.871255950998016]
本稿では,MLLMが視覚コンテンツに対して検証者誘導推論を行うことを可能にする,推論時ビジュアルトークンスケーリングのための新しいフレームワークを提案する。提案手法は,様々な視覚的推論ベンチマークにおいて,既存手法よりも優れていた。これらの結果は,次世代MLLMにおける微粒でコンテキスト対応の視覚的推論を実現するための動的推論機構の実現を実証するものである。
論文参考訳（メタデータ） (2025-06-08T17:38:49Z)
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization [49.931663904599205]
研究者は、インコンテキスト学習機能を備えた大規模マルチモーダルモデルを開発する技術を開発した。既存のLMMは、マルチモーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従う。本稿では,マルチモーダルな実演構築の伝統的なパラダイムを破るために,記号記述直接選好最適化(SymDPO)を提案する。
論文参考訳（メタデータ） (2024-11-17T08:29:14Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。 MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文参考訳（メタデータ） (2024-03-20T09:42:43Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。