論文の概要: Robust Grounding with MLLMs against Occlusion and Small Objects via Language-guided Semantic Cues
- arxiv url: http://arxiv.org/abs/2604.24036v1
- Date: Mon, 27 Apr 2026 04:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.739964
- Title: Robust Grounding with MLLMs against Occlusion and Small Objects via Language-guided Semantic Cues
- Title(参考訳): 言語誘導セマンティックキューによるMLLMによる咬合と小物体に対するロバスト接地
- Authors: Beomchan Park, Seongho Kim, Hyunjun Kim, Sungjune Park, Yong Man Ro,
- Abstract要約: 群衆化されたシーンには視覚的な課題が伴い、オブジェクトの意味論が損なわれ、グラウンドのパフォーマンスが低下する。
言語誘導セマンティックキュー(LGSC)を利用して,そのような制約を克服する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 58.21371989991432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have enhanced grounding capabilities in general scenes, their robustness in crowded scenes remains underexplored. Crowded scenes entail visual challenges (i.e., occlusion and small objects), which impair object semantics and degrade grounding performance. In contrast, language expressions are immune to such degradation and preserve object semantics. In light of these observations, we propose a novel method that overcomes such constraints by leveraging Language-Guided Semantic Cues (LGSCs). Specifically, our approach introduces a Semantic Cue Extractor (SCE) to derive semantic cues of objects from the visual pipeline of an MLLM. We then guide these cues using corresponding text embeddings to produce LGSCs as linguistic semantic priors. Subsequently, they are reintegrated into the original visual pipeline to refine object semantics. Extensive experiments and analyses demonstrate that incorporating LGSCs into an MLLM effectively improves grounding accuracy in crowded scenes.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は一般的な場面での接地能力の向上を図っているが、混み合ったシーンでの頑健さはいまだに解明されていない。
群集されたシーンは視覚的な課題(オクルージョンや小さなオブジェクト)を伴い、オブジェクトの意味論が損なわれ、グラウンドグラウンドのパフォーマンスが低下する。
対照的に、言語表現はそのような劣化に免疫を持ち、オブジェクトの意味を保っている。
そこで本研究では,言語誘導セマンティックキュー(LGSC)を利用して,そのような制約を克服する手法を提案する。
具体的には、MLLMの視覚パイプラインからオブジェクトの意味的手がかりを導出するセマンティックキューエクストラクタ(SCE)を導入する。
次に、対応するテキスト埋め込みを用いてこれらのキューをガイドし、言語意味の先行としてLGSCを生成する。
その後、オブジェクトのセマンティクスを洗練させるために、元のビジュアルパイプラインに再統合される。
大規模な実験と解析により,LGSCをMLLMに組み込むことで,混雑したシーンの接地精度が向上することが示された。
関連論文リスト
- Semantic Manipulation Localization [18.942761820082705]
画像の解釈を著しく変化させる微妙な意味的編集の局所化に焦点を当てた新しいタスクである意味的操作を導入する。
本課題に基づいて,意味的アンカー,摂動知覚,意味論的制約のある推論という3つのコンポーネントを通して意味的感受性をモデル化する,エンドツーエンドのフレームワークであるTRACEを提案する。
包括的実験により、TRACE は我々のベンチマークで既存の IML メソッドを一貫して上回り、より完全でコンパクトでセマンティックに整合したローカライゼーション結果を生成することが示された。
論文 参考訳(メタデータ) (2026-04-11T09:53:09Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。