論文の概要: Zoomer: Adaptive Image Focus Optimization for Black-box MLLM
- arxiv url: http://arxiv.org/abs/2505.00742v1
- Date: Wed, 30 Apr 2025 02:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.764256
- Title: Zoomer: Adaptive Image Focus Optimization for Black-box MLLM
- Title(参考訳): Zoomer: Black-box MLLMの適応イメージフォーカス最適化
- Authors: Jiaxu Qian, Chendong Wang, Yifan Yang, Chaoyun Zhang, Huiqiang Jiang, Xufang Luo, Yu Kang, Qingwei Lin, Anlan Zhang, Shiqi Jiang, Ting Cao, Tianjun Mao, Suman Banerjee, Guyue Liu, Saravan Rajmohan, Dongmei Zhang, Yuqing Yang, Qi Zhang, Lili Qiu,
- Abstract要約: SysNameは、トークン制限内で重要な視覚的詳細を保持しながら、MLLMのパフォーマンスを向上させるために設計された、新しい視覚的プロンプト機構である。
SysNameは一貫してベースラインメソッドを上回り、最大で26.9%の精度向上を実現し、トークン消費を大幅に削減した。
- 参考スコア(独自算出の注目度): 45.40963536739482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have broadened the scope of vision-language tasks, excelling in applications like image captioning and interactive question-answering. However, these models struggle with accurately processing visual data, particularly in tasks requiring precise object recognition and fine visual details. Stringent token limits often result in the omission of critical information, hampering performance. To address these limitations, we introduce \SysName, a novel visual prompting mechanism designed to enhance MLLM performance while preserving essential visual details within token limits. \SysName features three key innovations: a prompt-aware strategy that dynamically highlights relevant image regions, a spatial-preserving orchestration schema that maintains object integrity, and a budget-aware prompting method that balances global context with crucial visual details. Comprehensive evaluations across multiple datasets demonstrate that \SysName consistently outperforms baseline methods, achieving up to a $26.9\%$ improvement in accuracy while significantly reducing token consumption.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、画像キャプションや対話型質問応答など、視覚言語タスクの範囲を広げている。
しかし、これらのモデルは、特に正確なオブジェクト認識と細かな視覚的詳細を必要とするタスクにおいて、視覚データを正確に処理するのに苦労する。
文字列トークンの制限は、しばしば重要な情報の欠落を招き、パフォーマンスを阻害する。
これらの制限に対処するために,トークン制限内で重要な視覚的詳細を保存しつつ,MLLM性能を向上させるために設計された新しい視覚的プロンプト機構である \SysName を導入する。
関連するイメージ領域を動的に強調するプロンプト対応戦略、オブジェクトの整合性を維持する空間保存型オーケストレーションスキーマ、グローバルコンテキストと重要な視覚的詳細とのバランスをとる予算対応プロンプトメソッドである。
複数のデータセットにわたる総合的な評価によると、 \SysNameはベースラインメソッドを一貫して上回り、最大で26.9セントの精度向上を実現し、トークン消費を大幅に削減している。
関連論文リスト
- Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。
このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。
モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文 参考訳(メタデータ) (2025-01-18T17:43:05Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models [11.151736352865921]
本稿では,視覚的知識の微粒化手法を提案する。
この方法は、テキスト、座標、画像を含むオブジェクトのマルチスケール知識を統合する。
また,高次アライメントに最適化された一連のコンパクトモデルであるTinyGroundingGPTを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:57:07Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。