論文の概要: InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
- arxiv url: http://arxiv.org/abs/2404.06512v1
- Date: Tue, 9 Apr 2024 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:42:02.990291
- Title: InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD
- Title(参考訳): インターンLM-XComposer2-4KHD:336画素から4KHDへの解像度対応
- Authors: Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang,
- Abstract要約: InternLM-XComposer2-4KHDは、4K HD (3840 x 1600)以上のLVLMの解像度を向上するための画期的な研究である。
本研究は、自動パッチ設定による動的解像度という、新しい拡張を導入することにより、パッチ分割パラダイムを進化させる。
我々の研究は、トレーニングの解像度を4K HDまで拡張することで、潜在的な改善の天井にぶつかることなく、一貫したパフォーマンス向上につながることを実証している。
- 参考スコア(独自算出の注目度): 129.9919468062788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
- Abstract(参考訳): LVLM(Large Vision-Language Model)分野は大きな進歩を遂げているが、その進歩は解像度の制限による細かな視覚内容の理解の難しさによって妨げられている。
近年の取り組みは、LVLMの高分解能理解能力を向上することを目的としているが、約1500 x 1500ピクセルに抑えられ、比較的狭い解像度範囲に制限されている。
InternLM-XComposer2-4KHDは、4K HD (3840 x 1600) 以上のLVLMの高解像度化を実現するための画期的な探索である。
同時に、超高解像度はすべてのシナリオで必要ではないため、336ピクセルから4K標準まで幅広い解像度をサポートし、適用範囲を大きく広げている。
具体的には、自動パッチ設定による動的解決という、新しい拡張を導入することで、パッチ分割パラダイムを進化させる。
トレーニングイメージのアスペクト比を維持しつつ、パッチ数を自動的に変更し、事前トレーニングされたビジョントランスフォーマー(ViT)(336 x 336)に基づいてレイアウトを設定することで、336ピクセルから4K標準までのダイナミックなトレーニング解像度を実現している。
我々の研究は、トレーニングの解像度を4K HDまで拡張することで、潜在的な改善の天井にぶつかることなく、一貫したパフォーマンス向上につながることを実証している。
InternLM-XComposer2-4KHDは16ベンチマークのうち10ベンチマークでGPT-4VやGemini Proに匹敵する超能力を示している。
7Bパラメータを持つInternLM-XComposer2-4KHDモデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。
関連論文リスト
- AIM 2024 Challenge on Efficient Video Super-Resolution for AV1 Compressed Content [56.552444900457395]
ビデオスーパーレゾリューション(VSR)は、特にストリーミングアプリケーションにおいて、低ビットレートおよび低解像度ビデオを強化するための重要なタスクである。
本研究では,これらの課題に対処するために様々な手法をコンパイルし,その解決策はエンドツーエンドのビデオ超解像フレームワークである。
提案されたソリューションは、一般的なケースとして540pから4K(x4)、モバイルデバイス向けに調整された360pから1080p(x3)の2つのアプリケーションのためのビデオアップスケーリングに取り組む。
論文 参考訳(メタデータ) (2024-09-25T18:12:19Z) - Real-Time 4K Super-Resolution of Compressed AVIF Images. AIS 2024 Challenge Survey [116.29700317843043]
本稿では,AIS 2024 Real-Time Image Super-Resolution Challengeの一環として,新しいベンチマークを提案する。
圧縮された画像を540pから4Kの解像度で、商用GPUでリアルタイムでアップスケールすることを目指している。
デジタルアートからゲーム、写真まで、さまざまな4K画像を含む多様なテストセットを使用します。
論文 参考訳(メタデータ) (2024-04-25T10:12:42Z) - ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - Towards Efficient SDRTV-to-HDRTV by Learning from Image Formation [51.26219245226384]
モダンディスプレイは、高ダイナミックレンジ(WCG)と広色域(SDR)で映像コンテンツをレンダリングすることができる
利用可能なリソースの大部分は、まだ標準動的範囲(SDR)にある。
我々は、SDRTV/TVコンテンツの形成をモデル化し、SDRTV-to-TVタスクを定義し、分析する。
本手法は主に超高精細テレビコンテンツ向けに設計されており、4K解像度画像の処理に有効で軽量である。
論文 参考訳(メタデータ) (2023-09-08T02:50:54Z) - Super-Resolution Appearance Transfer for 4D Human Performances [29.361342747786164]
多視点ビデオからの4D再構成における一般的な問題は、キャプチャーされた動的テクスチャの外観の品質である。
静的な高解像度の外観キャプチャ・リグから超高解像度の外観伝達による解を提案する。
論文 参考訳(メタデータ) (2021-08-31T10:53:11Z) - Collapsible Linear Blocks for Super-Efficient Super Resolution [3.5554418329811557]
シングルイメージスーパーリゾリューション(SISR)は、コンピュータビジョンの重要な問題となっています。
超高効率超解像ネットワークの新たなクラスであるSESRを提案する。
6つのベンチマークデータセットの詳細な実験は、SESRが同様のあるいはより良い画像品質を達成することを実証している。
論文 参考訳(メタデータ) (2021-03-17T02:16:31Z) - ORStereo: Occlusion-Aware Recurrent Stereo Matching for 4K-Resolution
Images [13.508624751092654]
Occlusion-aware Recurrent binocular Stereo matching (ORStereo) を施行した。
ORStereoは、タスクを初期予測の残差更新と改善として定式化し、大きな異なる範囲の高解像度画像を目にしないように一般化する。
合成画像と実世界の高解像度画像の両方でモデルの能力をテストします。
論文 参考訳(メタデータ) (2021-03-13T21:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。