論文の概要: HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.08706v1
- Date: Thu, 11 Jul 2024 17:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:21:02.591157
- Title: HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models
- Title(参考訳): HiRes-LLaVA:高分解能大型ビジョンランゲージモデルにおけるフラグメンテーション入力の復元
- Authors: Runhui Huang, Xinpeng Ding, Chunwei Wang, Jianhua Han, Yulong Liu, Hengshuang Zhao, Hang Xu, Lu Hou, Wei Zhang, Xiaodan Liang,
- Abstract要約: HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
- 参考スコア(独自算出の注目度): 96.76995840807615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution inputs enable Large Vision-Language Models (LVLMs) to discern finer visual details, enhancing their comprehension capabilities. To reduce the training and computation costs caused by high-resolution input, one promising direction is to use sliding windows to slice the input into uniform patches, each matching the input size of the well-trained vision encoder. Although efficient, this slicing strategy leads to the fragmentation of original input, i.e., the continuity of contextual information and spatial geometry is lost across patches, adversely affecting performance in cross-patch context perception and position-specific tasks. To overcome these shortcomings, we introduce HiRes-LLaVA, a novel framework designed to efficiently process any size of high-resolution input without altering the original contextual and geometric information. HiRes-LLaVA comprises two innovative components: (i) a SliceRestore adapter that reconstructs sliced patches into their original form, efficiently extracting both global and local features via down-up-sampling and convolution layers, and (ii) a Self-Mining Sampler to compresses the vision tokens based on themselves, preserving the original context and positional information while reducing training overhead. To assess the ability of handling context fragmentation, we construct a new benchmark, EntityGrid-QA, consisting of edge-related and position-related tasks. Our comprehensive experiments demonstrate the superiority of HiRes-LLaVA on both existing public benchmarks and on EntityGrid-QA, particularly on document-oriented tasks, establishing new standards for handling high-resolution inputs.
- Abstract(参考訳): 高解像度入力により、LVLM(Large Vision-Language Models)はより詳細な視覚的詳細を識別し、その理解能力を高めることができる。
高精細な入力によるトレーニングと計算コストを低減するため、スライディングウインドウを均一なパッチにスライスし、よく訓練された視覚エンコーダの入力サイズに適合させることが期待できる。
効率的ではあるが、このスライシング戦略は元の入力の断片化につながる。つまり、コンテキスト情報の連続性と空間幾何学はパッチ間で失われ、クロスパッチのコンテキスト認識や位置特化タスクのパフォーマンスに悪影響を及ぼす。
これらの欠点を克服するために,従来の文脈情報や幾何学的情報を変更することなく,高解像度入力の任意のサイズを効率的に処理できる新しいフレームワークであるHiRes-LLaVAを導入する。
HiRes-LLaVAは2つの革新的なコンポーネントから構成される。
i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を介して、グローバルおよびローカル両方の機能を効率的に抽出するSliceRestoreアダプタ
(2)自己マイニングサンプリング装置は、自分自身に基づいて視覚トークンを圧縮し、トレーニングオーバーヘッドを低減しつつ、元のコンテキストと位置情報を保存する。
コンテキストフラグメンテーションの処理能力を評価するため,エッジ関連タスクと位置関連タスクからなる新しいベンチマークEntityGrid-QAを構築した。
我々の総合的な実験は、既存の公開ベンチマークとEntityGrid-QA、特にドキュメント指向タスクの両方においてHiRes-LLaVAの優位性を実証し、高解像度入力を処理するための新しい標準を確立する。
関連論文リスト
- Dynamic Integration of Task-Specific Adapters for Class Incremental Learning [31.67570086108542]
非典型的なクラス インクリメンタルラーニング (NECIL) では、モデルがスクラッチからリトレーニングしたり、古いタスク インクリメンタルを格納したりすることなく、新しいクラスを継続的に取得できる。
本稿では,タスク特化アダプタ統合(TSAI)とパッチレベルモデルアライメントという,タスク特化アダプタの動的統合(DIA)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T13:01:33Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Looking for Tiny Defects via Forward-Backward Feature Transfer [12.442574943138794]
そこで本研究では,従来の高解像度画像と地中トラスマスクの手法を評価する新しいベンチマークを提案する。
私たちのベンチマークには、欠陥サイズに関する堅牢性をキャプチャするメトリクスが含まれています。
提案手法は,欠陥サイズに対する高いロバスト性,高速動作,最先端セグメンテーション性能を特徴とする。
論文 参考訳(メタデータ) (2024-07-04T17:59:26Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。