論文の概要: LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.14882v1
- Date: Mon, 16 Mar 2026 06:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.100259
- Title: LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models
- Title(参考訳): LLMind:ビジョンランゲージモデルのためのバイオインスパイアされたトレーニング不要な適応型視覚表現
- Authors: Soumyaratna Debnath, Bui Duc Manh, Zinan Liu, Lin Wang,
- Abstract要約: バイオインスパイアされた視覚表現法の最初の体系的解析について述べる。
本研究では,人間の視覚における葉的エンコーディングと皮質拡大を模倣する訓練不要のフレームワークであるLLMindを提案する。
その結果,VQAv2では平均で20%,Sed-Benchでは+38%,A-OKVQAでは+37%の改善が見られた。
- 参考スコア(独自算出の注目度): 4.367067873280894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) typically assume a uniform spatial fidelity across the entire field of view of visual inputs, dedicating equal precision to even the uninformative regions. By contrast, human vision is neither uniform nor static; it is adaptive, selective, and resource-efficient. In light of this, we present the first systematic analysis of bio-inspired visual representation methods, providing insights for more efficient and adaptive VLMs. We propose LLMind (Looking Like the Mind), a novel training-free framework that mimics foveated encoding and cortical magnification in human vision to achieve adaptive, efficient representations for VLMs under tight pixel budgets. Our key idea is to explore a Bio-inspired Adaptive Sampling Strategy (BASS), enabling a Mobius-parameterized module that performs non-uniform sampling while preserving global scene structure. On top of BASS, we introduce closed-loop semantic feedback (CSF) via test-time adaptation to align perceptual saliency with textual information from the frozen VLM. We evaluate LLMind against uniform and other sampling baselines across diverse scene-level and region-guided visual question answering benchmarks. The results show dramatic gains, with average improvements of +20% on VQAv2, +38% on Seed-Bench, and +37% on A-OKVQA compared to uniform sampling under tight pixel budgets. More surprisingly, LLMind retains up to 82%, 92%, and 97% of the full-resolution performance using only 1%, 3%, and 5% of the pixels, respectively. Moreover, LLMind is lightweight, plug-and-play, and compatible with existing VLMs without requiring architectural changes.
- Abstract(参考訳): VLM(Vision-Language Models)は通常、視覚入力の視野全体にわたって均一な空間的忠実さを仮定し、非形式領域にも等精度を捧げる。
対照的に、人間の視覚は均一でも静的でもない。
そこで本研究では,バイオインスパイアされた視覚表現法を初めて体系的に解析し,より効率的かつ適応的なVLMについて考察する。
LLMindは,人間の視覚において,強靭な画素予算下でのVLMの適応的かつ効率的な表現を実現するために,フレーバー付きエンコーディングと皮質拡大を模倣する新しいトレーニングフリーフレームワークである。
我々のキーとなる考え方は、バイオインスパイアされた適応サンプリング戦略(BASS)を探求し、グローバルなシーン構造を維持しながら一様でないサンプリングを行うMobius-parameterizedモジュールを実現することである。
BASSの上に,テスト時間適応による閉ループセマンティックフィードバック(CSF)を導入し,凍結したVLMからのテキスト情報と知覚的サリエンシを一致させる。
LLMindは、様々なシーンレベルおよび領域誘導視覚質問応答ベンチマークにおいて、均一やその他のサンプリングベースラインに対して評価する。
その結果,VQAv2では平均20%,Sed-Benchでは+38%,A-OKVQAでは+37%であった。
さらに驚くべきことに、LLMindは最大82%、92%、97%のフル解像度パフォーマンスを維持しており、それぞれ1%、3%、5%のピクセルしか使用していない。
さらに、LLMindは軽量でプラグイン・アンド・プレイで、アーキテクチャの変更を必要とせずに既存のVLMと互換性がある。
関連論文リスト
- BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - Image Embedding Sampling Method for Diverse Captioning [2.705107928847026]
本研究では,異なる画像領域に明示的に参加することで,キャプションの多様性と情報提供性を向上する学習自由フレームワークを提案する。
提案手法は,画像キャプションのアライメント,セマンティックな整合性,多様性の観点から,より大規模なモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-14T12:33:19Z) - Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference [46.00657360369715]
認知コアとして機能するLVLM(Large Vision-Language Models)における視覚領域の存在について検討する。
LLMの25%を選択的に更新すると、わずかに均一に分散していれば、視覚性能の99%近くを維持できることがわかった。
本稿では,視覚領域外における非臨界層を除去し,性能損失を最小限に抑える,新しい視覚領域ベースプルーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:44:47Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。