論文の概要: VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models
- arxiv url: http://arxiv.org/abs/2410.11665v1
- Date: Tue, 15 Oct 2024 14:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:45.210974
- Title: VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models
- Title(参考訳): VisualRWKV-HDとUHD:ビジュアル言語モデルの高分解能処理の改善
- Authors: Zihang Li, Haowen Hou,
- Abstract要約: 本稿では,VisualRWKV-HDとVisualRWKV-UHDについて述べる。
どちらのモデルも解像度を4096 x 4096ピクセルまでサポートしており、より詳細で包括的なビジュアル処理機能を提供する。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License:
- Abstract: Accurately understanding complex visual information is crucial for visual language models (VLMs). Enhancing image resolution can improve visual perception capabilities, not only reducing hallucinations but also boosting performance in tasks that demand high resolution, such as text-rich or document analysis. In this paper, we present VisualRWKV-HD and VisualRWKV-UHD, two advancements in the VisualRWKV model family, specifically designed to process high-resolution visual inputs. For VisualRWKV-HD, we developed a lossless downsampling method to effectively integrate a high-resolution vision encoder with low-resolution encoders, without extending the input sequence length. For the VisualRWKV-UHD model, we enhanced image representation by dividing the image into four segments, which are then recombined with the original image. This technique allows the model to incorporate both high-resolution and low-resolution features, effectively balancing coarse and fine-grained information. As a result, the model supports resolutions up to 4096 x 4096 pixels, offering a more detailed and comprehensive visual processing capability. Both VisualRWKV-HD and VisualRWKV-UHD not only achieve strong results on VLM benchmarks but also show marked improvements in performance for text-rich tasks.
- Abstract(参考訳): 複雑な視覚情報の正確な理解は視覚言語モデル(VLM)にとって不可欠である。
画像解像度の強化は、幻覚を減らすだけでなく、テキストリッチや文書分析などの高解像度を必要とするタスクのパフォーマンスも向上する。
本稿では,VisualRWKV-HDとVisualRWKV-UHDについて述べる。
VisualRWKV-HDでは、入力シーケンス長を延長することなく、高解像度のビジョンエンコーダと低解像度のエンコーダを効果的に統合する無損失ダウンサンプリング法を開発した。
VisualRWKV-UHDモデルでは、画像を4つのセグメントに分割し、元のイメージと再結合することで、画像表現を強化した。
この手法により、モデルは高分解能と低分解能の両方を取り入れ、粗い情報ときめ細かい情報のバランスをとることができる。
その結果、モデルは最大4096 x 4096ピクセルの解像度をサポートし、より詳細で包括的なビジュアル処理機能を提供する。
VisualRWKV-HDとVisualRWKV-UHDは、VLMベンチマークで強力な結果を得るだけでなく、テキストリッチなタスクのパフォーマンスも大幅に向上した。
関連論文リスト
- Correlation Matching Transformation Transformers for UHD Image Restoration [46.569124456928535]
本稿では,UHD画像復元のための汎用変換器を提案する。
UHDformerには、(a)高分解能空間での学習と(b)低分解能空間での学習の2つの学習空間がある。
実験の結果、UHDformerは最先端の手法と比較して約97%のモデルサイズを削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-02T06:10:48Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Super-Resolution Appearance Transfer for 4D Human Performances [29.361342747786164]
多視点ビデオからの4D再構成における一般的な問題は、キャプチャーされた動的テクスチャの外観の品質である。
静的な高解像度の外観キャプチャ・リグから超高解像度の外観伝達による解を提案する。
論文 参考訳(メタデータ) (2021-08-31T10:53:11Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。