Fugu-MT 論文翻訳(概要): Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

論文の概要: Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

arxiv url: http://arxiv.org/abs/2603.08800v1
Date: Mon, 09 Mar 2026 18:02:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:23.74279
Title: Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM
Title（参考訳）: Granulon:MLLMのための適応型多角性セマンティックスを用いた画素レベルビジュアルエンコーダの起動
Authors: Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin,
Abstract要約: グラヌロン(Granulon)は、適応的な粒度増強を持つDINOv3ベースのMLLMである。グラヌロンは精度を30%向上し、幻覚を20%削減し、同じ設定で全ての視覚エンコーダを上回ります。
参考スコア（独自算出の注目度）: 20.022241806262155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in multimodal large language models largely rely on CLIP-based visual encoders, which emphasize global semantic alignment but struggle with fine-grained visual understanding. In contrast, DINOv3 provides strong pixel-level perception yet lacks coarse-grained semantic abstraction, leading to limited multi-granularity reasoning. To address this gap, we propose Granulon, a novel DINOv3-based MLLM with adaptive granularity augmentation. Granulon introduces a text-conditioned granularity Controller that dynamically adjusts the visual abstraction level according to the semantic scope of the textual input, and an Adaptive Token Aggregation module that performs granularity-guided pooling and relation-aware clustering to produce compact, semantically rich visual tokens. This design enables unified "pixel-to-fine-to-coarse" reasoning within a single forward pass. Extensive and interpretable experiments demonstrate that Granulon improves accuracy by ~30% and reduces hallucination by ~20%, outperforming all visual encoders under identical settings.
Abstract（参考訳）: マルチモーダル大規模言語モデルの最近の進歩は、大域的セマンティックアライメントを強調するCLIPベースのビジュアルエンコーダに大きく依存しているが、きめ細かい視覚的理解に苦慮している。対照的に、DINOv3は強いピクセルレベルの認識を提供するが、粗い粒度のセマンティックな抽象化が欠如しており、多粒度推論に制限がある。このギャップに対処するために、適応的な粒度増大を伴うDINOv3ベースのMLLMであるGranulonを提案する。 Granulonはテキスト入力のセマンティックスコープに応じて視覚抽象レベルを動的に調整するテキスト条件のグラニュラリティコントローラと、粒度誘導プーリングと関係対応クラスタリングを実行し、コンパクトでセマンティックにリッチなビジュアルトークンを生成するAdaptive Token Aggregationモジュールを導入している。この設計により、単一のフォワードパス内で「ピクセル・ツー・ファイン・ツー・粗い」推論を統一することができる。広範かつ解釈可能な実験により、グラヌロンは精度を30%向上し、幻覚を20%低減し、同じ条件下で全ての視覚エンコーダより優れることを示した。

関連論文リスト

Boosting Medical Visual Understanding From Multi-Granular Language Learning [13.789642522499571]
コントラスト言語-画像事前学習(CLIP)は,マルチモーダル学習において重要な役割を担っている。本稿では,多言語言語学習(MGLL)を提案する。
論文参考訳（メタデータ） (2025-11-20T00:24:26Z)
GranViT: A Fine-Grained Vision Model With Autoregressive Perception For MLLMs [114.48317313878538]
GranViTは、微細な特徴抽出と大規模言語モデルへのセマンティックアライメントを統合するビジョントランスフォーマーである。最初にGran-29Mを構築した。これは200万の自然画像とOCR画像と1億5000万以上の高品質な領域レベルのアノテーションを組み合わせたデータセットである。我々は,Gran-29Mの微粒化アノテーションを利用して,事前学習とキャプション・ツー・バウンディングボックス回帰における視覚エンコーダの局所的視覚表現を強化する。
論文参考訳（メタデータ） (2025-10-23T12:33:59Z)
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-06-20T07:46:40Z)
Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models [18.02840698188587]
本稿では,CLIPの視覚表現とDINOv2の表現を一致させるカーネルベースの新しい手法を提案する。画像のみのアライメント微調整は、ゼロショット物体認識、きめ細かい空間的推論において著しく改善されている。
論文参考訳（メタデータ） (2025-06-03T07:44:43Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。