論文の概要: Image Complexity-Aware Adaptive Retrieval for Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.15372v1
- Date: Wed, 17 Dec 2025 12:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.974968
- Title: Image Complexity-Aware Adaptive Retrieval for Efficient Vision-Language Models
- Title(参考訳): 画像複雑度を考慮した効率的な視覚・言語モデルのための適応型検索法
- Authors: Mikel Williams-Lekuona, Georgina Cosma,
- Abstract要約: 視覚言語モデルにおける視覚変換器は、175.33 GFLOP(ViT-L/14)を出力する全画像にわたって一様計算処理を適用する
単純な画像に対して,視覚変換器が少ない計算量で使用できるICAR(Image Complexity-Aware Retrieval)を提案する。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers in vision-language models apply uniform computational effort across all images, expending 175.33 GFLOPs (ViT-L/14) whether analysing a straightforward product photograph or a complex street scene. We propose ICAR (Image Complexity-Aware Retrieval), which enables vision transformers to use less compute for simple images whilst processing complex images through their full network depth. The key challenge is maintaining cross-modal alignment: embeddings from different processing depths must remain compatible for text matching. ICAR solves this through dual-path training that produces compatible embeddings from both reduced-compute and full-compute processing. This maintains compatibility between image representations and text embeddings in the same semantic space, whether an image exits early or processes fully. Unlike existing two-stage approaches that require expensive reranking, ICAR enables direct image-text matching without additional overhead. To determine how much compute to use, we develop ConvNeXt-IC, which treats image complexity assessment as a classification task. By applying modern classifier backbones rather than specialised architectures, ConvNeXt-IC achieves state-of-the-art performance with 0.959 correlation with human judgement (Pearson) and 4.4x speedup. Evaluated on standard benchmarks augmented with real-world web data, ICAR achieves 20% practical speedup while maintaining category-level performance and 95% of instance-level performance, enabling sustainable scaling of vision-language systems.
- Abstract(参考訳): 視覚言語モデルにおける視覚変換器は全画像に対して一様の計算処理を施し、175.33 GFLOPs (ViT-L/14) を出力する。
本稿では,複雑な画像をネットワーク深度で処理しながら,視覚変換器が簡単な画像に対して少ない計算を行えるICAR(Image Complexity-Aware Retrieval)を提案する。
異なる処理深度からの埋め込みは、テキストマッチングと互換性を保たなければならない。
ICARは、減算処理とフルコンプット処理の両方から互換性のある埋め込みを生成するデュアルパストレーニングによってこれを解決している。
これは、画像が早期に終了するか、完全に処理するかにかかわらず、同じ意味空間における画像表現とテキスト埋め込みの互換性を維持する。
高価な再ランクを必要とする既存の2段階アプローチとは異なり、ICARは追加のオーバーヘッドなしに直接画像テキストマッチングを可能にする。
画像の複雑性評価を分類タスクとして扱うConvNeXt-ICを開発した。
特殊アーキテクチャではなく現代的な分類器のバックボーンを適用することで、ConvNeXt-ICは人間の判断(ピアソン)と4.4倍のスピードアップと0.959の相関で最先端のパフォーマンスを達成する。
実世界のWebデータで強化された標準ベンチマークに基づいて、ICARはカテゴリレベルのパフォーマンスを維持しつつ、20%の実用的なスピードアップを実現し、95%のインスタンスレベルのパフォーマンスを実現し、ビジョン言語システムの持続可能なスケーリングを可能にします。
関連論文リスト
- DReX: Pure Vision Fusion of Self-Supervised and Convolutional Representations for Image Complexity Prediction [1.771934382051849]
画像の複雑さを予測するために,自己監督的・畳み込み的表現を融合した視覚のみのモデルを提案する。
DReXはIC9600ベンチマークで最先端のパフォーマンスを達成する。
以上の結果から,視覚的特徴だけでは,人手による複雑度予測に十分である可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-21T06:57:33Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - Adventurer: Optimizing Vision Mamba Architecture Designs for Efficiency [41.87857129429512]
本稿では,イメージをパッチトークンのシーケンスとして扱うアドベンチャーシリーズモデルを紹介し,一方向言語モデルを用いて視覚表現を学習する。
このモデリングパラダイムにより、列長に対して線形な複雑度を持つ繰り返し定式化による画像の処理が可能となる。
本稿では,画像入力を因果推論フレームワークにシームレスに統合する2つの簡単な設計を提案する。
論文 参考訳(メタデータ) (2024-10-10T04:14:52Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。