Fugu-MT 論文翻訳(概要): Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering

論文の概要: Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering

arxiv url: http://arxiv.org/abs/2605.01827v1
Date: Sun, 03 May 2026 11:34:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.953722
Title: Referring Multiple Regions with Large Multimodal Models via Contextual Latent Steering
Title（参考訳）: コンテキストラテントステアリングによる大規模マルチモーダルモデルによる複数領域の参照
Authors: Yun Xing, Hanyuan Liu, Jiahao Nie, Shijian Lu,
Abstract要約: 本研究では,複数の領域を文脈的に参照するための一般LMMを指導するためのトレーニング不要なアプローチであるCSteerを紹介した。 CSteerは、視覚的な参照動作を暗黙的に表現する事前計算のコンテキストベクトルから始める。実験の結果,CSteer を用いた一般 LMM は LMM よりも優れていた。
参考スコア（独自算出の注目度）: 51.54461480047943
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Multimodal Models (LMMs) have recently demonstrated their proficiency in holistic visual comprehension. However, most of them struggle to tackle region-level perception guided by visual prompts, especially for cases where multiple regions are referred simultaneously, or scenarios where global contexts are necessary for precise visual referring. We introduce Contextual Latent Steering (CSteer), a training-free approach for guiding general LMMs to refer multiple regions contextually, without expensive fine-tuning or architectural modifications. CSteer starts with pre-computing contextual vectors that implicitly represent visual referring behaviors, such as differentiation among regions and attention to global contexts, followed by representation editing during inference time. Experimental results on multiple datasets indicate that general LMMs with CSteer outperform tailored referring LMMs in most cases, suggesting a promising solution in training-free, and setting new state-of-the-art for this field. Code is available at https://github.com/xing0047/csteer.git.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は、最近、全体的視覚的理解においてその習熟度を実証している。しかし、多くの場合、視覚的プロンプトによって導かれる領域レベルの認識、特に複数の領域が同時に参照される場合、あるいは正確な視覚的参照のためにグローバルなコンテキストが必要なシナリオに対処するのに苦労している。 CSteer(Contextual Latent Steering)は,高額な微調整やアーキテクチャ変更を伴わずに,複数の領域を文脈的に参照する一般LMMを指導するためのトレーニング不要な手法である。 CSteerは、地域間の分化やグローバルコンテキストへの注意といった視覚的参照行動を暗黙的に表現する、事前計算された文脈ベクトルから始める。複数のデータセットに対する実験結果から,CSteer を用いた一般 LMM は LMM の参照に優れた性能を示し,トレーニングフリーで有望なソリューションであり,この分野の新たな最先端設定が提案されている。コードはhttps://github.com/xing0047/csteer.gitで入手できる。

関連論文リスト

Multi-Grained Vision-Language Alignment for Domain Generalized Person Re-Identification [15.307492395180658]
一般人物再識別(DG Re-ID)は、モデルがソースドメインでトレーニングされるが、見えないターゲットドメインでテストされる、困難なタスクである。近年,視覚言語モデル (VLM) は様々な視覚的応用において優れた一般化能力を示す。本稿では,CLIPに基づく多粒度視覚言語アライメントフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-14T16:33:12Z)
Test-Time Computing for Referring Multimodal Large Language Models [143.49848714354698]
そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
論文参考訳（メタデータ） (2026-02-23T04:42:10Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。 438k問合せ対からなる大規模Visual CoTデータセットを提案する。視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文参考訳（メタデータ） (2024-03-25T17:59:23Z)
Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文参考訳（メタデータ） (2023-11-27T22:23:27Z)
Dynamic Context-guided Capsule Network for Multimodal Machine Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。 MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文参考訳（メタデータ） (2020-09-04T06:18:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。