論文の概要: CARPE: Context-Aware Image Representation Prioritization via Ensemble for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.13622v1
- Date: Tue, 20 Jan 2026 05:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.174453
- Title: CARPE: Context-Aware Image Representation Prioritization via Ensemble for Large Vision-Language Models
- Title(参考訳): CARPE:大規模視覚言語モデルのためのアンサンブルによるコンテキスト認識画像表現優先化
- Authors: Donghee Lee, Rui Cai, Zhe Zhao,
- Abstract要約: CARPE(Context-Aware Image Representation Prioritization via Ensemble)は、視覚統合レイヤとコンテキスト認識アンサンブル戦略を導入した、モデルに依存しないフレームワークである。
CARPEは、視覚エンコーダと言語モデルで構成されるほとんどのオープンソースのLVLMと効果的に統合されるように設計されている。
- 参考スコア(独自算出の注目度): 7.442802086966249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Vision-Language Models (LVLMs) have pushed them closer to becoming general-purpose assistants. Despite their strong performance, LVLMs still struggle with vision-centric tasks such as image classification, underperforming compared to their base vision encoders, which are often CLIP-based models. To address this limitation, we propose Context-Aware Image Representation Prioritization via Ensemble (CARPE), a novel, model-agnostic framework which introduces vision-integration layers and a context-aware ensemble strategy to identify when to prioritize image representations or rely on the reasoning capabilities of the language model. This design enhances the model's ability to adaptively weight visual and textual modalities and enables the model to capture various aspects of image representations, leading to consistent improvements in generalization across classification and vision-language benchmarks. Extensive experiments demonstrate that CARPE not only improves performance on image classification benchmarks but also enhances results across various vision-language benchmarks. Finally, CARPE is designed to be effectively integrated with most open-source LVLMs that consist of a vision encoder and a language model, ensuring its adaptability across diverse architectures.
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)の進歩により、汎用アシスタントに近づきつつある。
強い性能にもかかわらず、LVLMは画像分類のような視覚中心のタスクに苦戦しており、ベースビジョンエンコーダ(しばしばCLIPベースのモデル)に比べて性能が劣っている。
この制限に対処するために,視覚統合層を導入し,画像表現の優先順位付けを行うか,言語モデルの推論能力に依存するかを識別するコンテキスト認識型アンサンブル戦略であるCARPE(Context-Aware Image Representation Prioritization via Ensemble)を提案する。
この設計は、視覚的およびテキスト的モダリティを適応的に重み付けするモデルの能力を向上し、画像表現の様々な側面を捉えることを可能にする。
大規模な実験により、CARPEは画像分類ベンチマークのパフォーマンスを向上するだけでなく、様々な視覚言語ベンチマークにおける結果も向上することが示された。
最後に、CARPEはビジョンエンコーダと言語モデルで構成されるほとんどのオープンソースのLVLMと効果的に統合され、多様なアーキテクチャにまたがる適応性を保証するように設計されている。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - CLoVe: Encoding Compositional Language in Contrastive Vision-Language
Models [33.80107512462935]
VLM(Foundational Vision-Language Models)は、オブジェクト中心認識において優れているが、単語順に不変と思われるテキスト表現を学習する。
GPT-4Vのような大規模単一ストリームモデルを含む任意のVLMが、組成を正常に識別する証拠は存在しない。
本稿では,既存のモデルが構成言語をエンコードする能力を大幅に向上するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T23:42:25Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。