論文の概要: Scaling Vision Pre-Training to 4K Resolution
- arxiv url: http://arxiv.org/abs/2503.19903v1
- Date: Tue, 25 Mar 2025 17:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:59.657818
- Title: Scaling Vision Pre-Training to 4K Resolution
- Title(参考訳): 4K解像度への事前トレーニングのスケールアップ
- Authors: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin,
- Abstract要約: 視力トレーニングを4K解像度にスケールアップするPS3を,ほぼ一定コストで導入する。
PS3は、ローカル領域を選択的に処理し、それらをローカルの詳細なキャプションと対比することによって事前訓練される。
VILA-HDは、視力事前訓練なしでのベースラインに比べて、高解像度の視覚知覚を著しく改善する。
- 参考スコア(独自算出の注目度): 120.32767371797578
- License:
- Abstract: High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.
- Abstract(参考訳): 視覚的詳細の高分解能な認識は日常的な作業に不可欠である。
しかし、現在の視界事前トレーニングは、より大きな画像を処理する2次コストのため、低解像度(例えば、378 x 378ピクセル)に制限されている。
我々は,CLIPスタイルの視覚を4K解像度に,ほぼ一定コストで事前学習するPS3を紹介する。
グローバルな画像表現のコントラスト学習の代わりに、PS3は局所領域を選択的に処理し、それらを局所的な詳細なキャプションと対比することにより、計算オーバーヘッドを大幅に削減した高分解能表現学習を可能にする。
事前訓練されたPS3は、低解像度でグローバル画像をエンコードし、その正当性やテキストプロンプトとの関連性に基づいて、局所的な高解像度領域を選択的に処理することができる。
MLLM(Multi-modal LLM)にPS3を適用すると、VILA-HDと呼ばれる結果のモデルでは、AnyResやS^2のような高解像度の視覚前訓練をせずに、最大4.3倍のトークンを使用しながら、ベースラインに比べて高解像度の視覚知覚が大幅に向上する。
PS3はまた、VILA-HDの優れたスケーリング特性を解放し、無料の解像度をスケールアップし、より良いパフォーマンスのためにテストタイム計算をスケールアップする。
最先端と比較して、VILA-HDはNVILAやQwen2-VLといった従来のMLLMを複数のベンチマークで上回り、最新のトークンプルーニングアプローチよりも効率が良い。
最後に、現在のベンチマークでは4K解像度の知覚は必要とせず、4K解像度でのイメージQAの新しいベンチマークである4KProを提案し、VILA-HDはGPT-4oよりも14.5%向上し、Qwen2-VLより3.2%改善し2.96倍高速化した。
関連論文リスト
- AIM 2024 Challenge on Efficient Video Super-Resolution for AV1 Compressed Content [56.552444900457395]
ビデオスーパーレゾリューション(VSR)は、特にストリーミングアプリケーションにおいて、低ビットレートおよび低解像度ビデオを強化するための重要なタスクである。
本研究では,これらの課題に対処するために様々な手法をコンパイルし,その解決策はエンドツーエンドのビデオ超解像フレームワークである。
提案されたソリューションは、一般的なケースとして540pから4K(x4)、モバイルデバイス向けに調整された360pから1080p(x3)の2つのアプリケーションのためのビデオアップスケーリングに取り組む。
論文 参考訳(メタデータ) (2024-09-25T18:12:19Z) - InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD [129.9919468062788]
InternLM-XComposer2-4KHDは、4K HD (3840 x 1600)以上のLVLMの解像度を向上するための画期的な研究である。
本研究は、自動パッチ設定による動的解像度という、新しい拡張を導入することにより、パッチ分割パラダイムを進化させる。
我々の研究は、トレーニングの解像度を4K HDまで拡張することで、潜在的な改善の天井にぶつかることなく、一貫したパフォーマンス向上につながることを実証している。
論文 参考訳(メタデータ) (2024-04-09T17:59:32Z) - LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images [119.24323184581974]
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T12:04:11Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - 4K-HAZE: A Dehazing Benchmark with 4K Resolution Hazy and Haze-Free
Images [12.402054374952485]
まず、シーンの深さを推定し、光線とオブジェクトの反射率をシミュレートし、GANを用いて合成画像を実際の領域に移行する。
これらの合成画像を4K-HAZEデータセットと呼ばれるベンチマークにラップする。
このアプローチの最も魅力的な側面は、24G RAMをリアルタイムで(33fps)1つのGPU上で4Kイメージを実行する機能です。
論文 参考訳(メタデータ) (2023-03-28T09:39:29Z) - Swin Transformer V2: Scaling Up Capacity and Resolution [45.462916348268664]
我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536$times$1,536解像度の画像でトレーニングできるようにする。
キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
論文 参考訳(メタデータ) (2021-11-18T18:59:33Z) - ORStereo: Occlusion-Aware Recurrent Stereo Matching for 4K-Resolution
Images [13.508624751092654]
Occlusion-aware Recurrent binocular Stereo matching (ORStereo) を施行した。
ORStereoは、タスクを初期予測の残差更新と改善として定式化し、大きな異なる範囲の高解像度画像を目にしないように一般化する。
合成画像と実世界の高解像度画像の両方でモデルの能力をテストします。
論文 参考訳(メタデータ) (2021-03-13T21:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。