論文の概要: Spatial Preference Rewarding for MLLMs Spatial Understanding
- arxiv url: http://arxiv.org/abs/2510.14374v1
- Date: Thu, 16 Oct 2025 07:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.75575
- Title: Spatial Preference Rewarding for MLLMs Spatial Understanding
- Title(参考訳): MLLMの空間的理解のための空間的選好リワード
- Authors: Han Qiu, Peng Gao, Lewei Lu, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は, 有望な空間理解能力を示した。
彼らの成功にもかかわらず、MLLMは依然として微粒な空間知覚能力に不足している。
本稿では,MLLMの空間能力を高めるSPR(Spatial Preference Rewarding)アプローチを提案する。
- 参考スコア(独自算出の注目度): 92.25703021388142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models~(MLLMs) have demonstrated promising spatial understanding capabilities, such as referencing and grounding object descriptions. Despite their successes, MLLMs still fall short in fine-grained spatial perception abilities, such as generating detailed region descriptions or accurately localizing objects. Additionally, they often fail to respond to the user's requirements for desired fine-grained spatial understanding. This issue might arise because existing approaches primarily focus on tuning MLLMs to model pre-annotated instruction data to inject spatial knowledge, without direct supervision of MLLMs' actual responses. We address this issue by SPR, a Spatial Preference Rewarding~(SPR) approach that enhances MLLMs' spatial capabilities by rewarding MLLMs' detailed responses with precise object localization over vague or inaccurate responses. With randomly selected image regions and region descriptions from MLLMs, SPR introduces semantic and localization scores to comprehensively evaluate the text quality and localization quality in MLLM-generated descriptions. We also refine the MLLM descriptions with better localization accuracy and pair the best-scored refinement with the initial descriptions of the lowest score for direct preference optimization, thereby enhancing fine-grained alignment with visual input. Extensive experiments over standard referring and grounding benchmarks show that SPR improves MLLM spatial understanding capabilities effectively with minimal overhead in training. Data and code will be released at https://github.com/hanqiu-hq/SPR
- Abstract(参考訳): マルチモーダルな大言語モデル~(MLLM)は、オブジェクト記述の参照やグラウンド化など、有望な空間理解能力を示してきた。
彼らの成功にもかかわらず、MLLMは細かな空間認識能力に欠けており、例えば詳細な領域記述の生成や正確な位置決めが可能である。
さらに、ユーザーは所望のきめ細かい空間的理解の要求に応えられないことが多い。
この問題は、既存のアプローチがMLLMの実際の応答を直接監督することなく、事前に注釈付けされた命令データをモデル化して空間知識を注入することに焦点を当てているためである。
本稿では, MLLMの詳細な応答に, 曖昧で不正確な応答に対して, 正確な対象位置を付与することにより, MLLMの空間能力を高めるSPR(Spatial Preference Rewarding~SPR)アプローチによってこの問題に対処する。
MLLMからランダムに選択された画像領域と領域記述により、SPRは、MLLM生成記述におけるテキスト品質と局所化品質を包括的に評価する意味的および局所化スコアを導入する。
また,MLLM記述を局所化精度良く洗練し,最下位スコアの初期記述と組み合わせて直接選好最適化を行い,視覚入力との微粒化アライメントを向上する。
標準参照およびグラウンドベンチマークに対する大規模な実験により、SPRは訓練のオーバーヘッドを最小限に抑え、MLLM空間理解能力を効果的に改善することが示された。
データとコードはhttps://github.com/hanqiu-hq/SPRで公開される
関連論文リスト
- LLM-RG: Referential Grounding in Outdoor Scenarios using Large Language Models [9.647551134303384]
屋外の運転シーンにおける参照グラウンドリングは、大きなシーンの変動、多くの視覚的に類似したオブジェクト、動的要素のために困難である。
LLM-RGは,既製の視覚言語モデルと,記号的推論のための大規模言語モデルを組み合わせたハイブリッドパイプラインである。
論文 参考訳(メタデータ) (2025-09-29T21:32:54Z) - Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding [47.400649582392255]
大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:35:50Z) - Spatio-Temporal LLM: Reasoning about Environments and Actions [6.341762228330488]
S-temporal」は現在のマルチモーダル大言語モデル(MLLM)に挑戦を促す
近年のMLLMは「s-temporal」のプロンプトを正しく答えることに苦慮している。
我々はこのデータセットに基づいて2時間LLMベースラインを構築した。
論文 参考訳(メタデータ) (2025-07-07T17:59:55Z) - Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization [7.0683335354070085]
我々は,空間的推論機能を含むように明示的に訓練された最近のMLLMを分析した。
これらのモデルが特定の設定で実行可能であることを実証し、ゼロショットシナリオに適していることを示す。
論文 参考訳(メタデータ) (2025-04-14T21:34:06Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding [19.510385758079966]
リアルタイムScene Recommendation(LARR)を用いた大規模言語モデル
本稿では,Large Language Model Aided Real-time Scene Recommendation(LARR)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T10:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。