論文の概要: Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2501.07783v1
- Date: Tue, 14 Jan 2025 01:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:09.495497
- Title: Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding
- Title(参考訳): 視覚知覚とマルチモーダル理解のためのパラメータ反転画像ピラミッドネットワーク
- Authors: Zhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai,
- Abstract要約: 現在の画像ピラミッドは、複数の解像度を処理するために同じ大規模なモデルを使用しており、計算コストを大幅に上回っている。
我々はCOCO変換画像ピラミッドネットワーク(PIIP)と呼ばれる新しいネットワークアーキテクチャを提案する。
PIIPは、事前訓練されたモデル(ViTまたはCNN)を、より小さなネットワークブランチによって高解像度の画像が処理され、計算コストと性能のバランスをとるマルチスケールイメージの処理に使用する。
- 参考スコア(独自算出の注目度): 49.218195440600354
- License:
- Abstract: Image pyramids are widely adopted in top-performing methods to obtain multi-scale features for precise visual perception and understanding. However, current image pyramids use the same large-scale model to process multiple resolutions of images, leading to significant computational cost. To address this challenge, we propose a novel network architecture, called Parameter-Inverted Image Pyramid Networks (PIIP). Specifically, PIIP uses pretrained models (ViTs or CNNs) as branches to process multi-scale images, where images of higher resolutions are processed by smaller network branches to balance computational cost and performance. To integrate information from different spatial scales, we further propose a novel cross-branch feature interaction mechanism. To validate PIIP, we apply it to various perception models and a representative multimodal large language model called LLaVA, and conduct extensive experiments on various tasks such as object detection, segmentation, image classification and multimodal understanding. PIIP achieves superior performance compared to single-branch and existing multi-resolution approaches with lower computational cost. When applied to InternViT-6B, a large-scale vision foundation model, PIIP can improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation, finally achieving 60.0 box AP on MS COCO and 59.7 mIoU on ADE20K. For multimodal understanding, our PIIP-LLaVA achieves 73.0% accuracy on TextVQA and 74.5% on MMBench with only 2.8M training data. Our code is released at https://github.com/OpenGVLab/PIIP.
- Abstract(参考訳): 画像ピラミッドは、視覚的知覚と理解を正確にするためのマルチスケール特徴を得るために、トップパフォーマンスの手法で広く採用されている。
しかし、現在の画像ピラミッドは同じ大規模モデルを使用して画像の多重解像度を処理し、計算コストを大幅に上回っている。
この課題に対処するために,パラメータ変換画像ピラミッドネットワーク (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
具体的には、PIIPはプリトレーニング済みモデル(ViTまたはCNN)を、より小さなネットワークブランチによって高解像度の画像が処理され、計算コストと性能のバランスをとるマルチスケールイメージの処理に使用する。
異なる空間スケールからの情報を統合するために,新たなクロスブランチ機能相互作用機構を提案する。
PIIPを検証するために、LLaVAと呼ばれる様々な知覚モデルと代表的マルチモーダル言語モデルに適用し、オブジェクト検出、セグメンテーション、画像分類、マルチモーダル理解といった様々なタスクについて広範な実験を行う。
PIIPは、計算コストの低いシングルブランチや既存のマルチ解像度アプローチよりも優れた性能を実現する。
大規模なビジョン基盤モデルであるInternViT-6Bに適用すると、PIIPは検出とセグメンテーションで1%-2%向上し、元の計算の40%-60%しか得られず、最終的にMS COCOで60.0ボックスAP、ADE20Kで59.7 mIoUを達成した。
マルチモーダル理解のために,我々のPIIP-LLaVAはTextVQAでは73.0%,MMBenchでは74.5%の精度でトレーニングデータ2.8Mしか得られない。
私たちのコードはhttps://github.com/OpenGVLab/PIIPで公開されています。
関連論文リスト
- Flemme: A Flexible and Modular Learning Platform for Medical Images [5.086862917025204]
Flemmeは、MedicalイメージのためのFLExible and Modular Learningプラットフォームである。
コンボリューション,トランスフォーマー,状態空間モデル(SSM)に基づくビルディングブロックを用いてエンコーダを構築し,2次元画像パッチと3次元画像パッチの両処理を行う。
論文 参考訳(メタデータ) (2024-08-18T05:47:33Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - CFPNet-M: A Light-Weight Encoder-Decoder Based Network for Multimodal
Biomedical Image Real-Time Segmentation [0.0]
我々は,新しい軽量アーキテクチャ -- 医療用チャネルワイズ機能ピラミッドネットワークを開発した。
u-netの約2%のパラメータと8mbのメモリを持つ5つの医療データセットで同等のセグメンテーション結果を達成している。
論文 参考訳(メタデータ) (2021-05-10T02:29:11Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。