Fugu-MT 論文翻訳(概要): VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

論文の概要: VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

arxiv url: http://arxiv.org/abs/2410.11665v1
Date: Tue, 15 Oct 2024 14:49:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.835103
Title: VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models
Title（参考訳）: VisualRWKV-HDとUHD:ビジュアル言語モデルの高分解能処理の改善
Authors: Zihang Li, Haowen Hou,
Abstract要約: 本稿では,VisualRWKV-HDとVisualRWKV-UHDについて述べる。どちらのモデルも解像度を4096 x 4096ピクセルまでサポートしており、より詳細で包括的なビジュアル処理機能を提供する。
参考スコア（独自算出の注目度）: 1.03590082373586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurately understanding complex visual information is crucial for visual language models (VLMs). Enhancing image resolution can improve visual perception capabilities, not only reducing hallucinations but also boosting performance in tasks that demand high resolution, such as text-rich or document analysis. In this paper, we present VisualRWKV-HD and VisualRWKV-UHD, two advancements in the VisualRWKV model family, specifically designed to process high-resolution visual inputs. For VisualRWKV-HD, we developed a lossless downsampling method to effectively integrate a high-resolution vision encoder with low-resolution encoders, without extending the input sequence length. For the VisualRWKV-UHD model, we enhanced image representation by dividing the image into four segments, which are then recombined with the original image. This technique allows the model to incorporate both high-resolution and low-resolution features, effectively balancing coarse and fine-grained information. As a result, the model supports resolutions up to 4096 x 4096 pixels, offering a more detailed and comprehensive visual processing capability. Both VisualRWKV-HD and VisualRWKV-UHD not only achieve strong results on VLM benchmarks but also show marked improvements in performance for text-rich tasks.
Abstract（参考訳）: 複雑な視覚情報の正確な理解は視覚言語モデル(VLM)にとって不可欠である。画像解像度の強化は、幻覚を減らすだけでなく、テキストリッチや文書分析などの高解像度を必要とするタスクのパフォーマンスも向上する。本稿では,VisualRWKV-HDとVisualRWKV-UHDについて述べる。 VisualRWKV-HDでは、入力シーケンス長を延長することなく、高解像度のビジョンエンコーダと低解像度のエンコーダを効果的に統合する無損失ダウンサンプリング法を開発した。 VisualRWKV-UHDモデルでは、画像を4つのセグメントに分割し、元のイメージと再結合することで、画像表現を強化した。この手法により、モデルは高分解能と低分解能の両方を取り入れ、粗い情報ときめ細かい情報のバランスをとることができる。その結果、モデルは最大4096 x 4096ピクセルの解像度をサポートし、より詳細で包括的なビジュアル処理機能を提供する。 VisualRWKV-HDとVisualRWKV-UHDは、VLMベンチマークで強力な結果を得るだけでなく、テキストリッチなタスクのパフォーマンスも大幅に向上した。

関連論文リスト

HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文参考訳（メタデータ） (2025-07-17T08:09:31Z)
Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models [21.577488819845982]
VLM(Vision-Language Models)は、現実世界の画像の様々な解像度とアスペクト比を扱う際に大きな課題に直面する。極端視覚条件下でのVLM機能評価のための新しいベンチマークであるRC-Benchを紹介する。我々はまた、オープンソースのトレーニングフレームワークであるNativeRes-LLaVAを提案し、VLMがネイティブ解像度とアスペクト比で画像を効果的に処理できるようにする。
論文参考訳（メタデータ） (2025-06-15T08:58:09Z)
FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [61.61415607972597]
DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
論文参考訳（メタデータ） (2025-02-07T18:59:59Z)
Exploring Linear Attention Alternative for Single Image Super-Resolution [28.267177967085143]
ディープラーニングベースのシングルイメージ超解像(SISR)技術は、低解像度(LR)画像を高解像度(HR)画像に拡張することに焦点を当てている。本稿では,Receptance Weighted Key Value (RWKV) アーキテクチャと特徴抽出技術を組み合わせた新しい手法を提案する。 MambaIRモデルと比較すると,PSNRでは0.26%,SSIMでは0.16%の平均的な改善が得られた。
論文参考訳（メタデータ） (2025-02-01T11:39:02Z)
Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文参考訳（メタデータ） (2024-12-12T06:13:00Z)
RTSR: A Real-Time Super-Resolution Model for AV1 Compressed Content [10.569678424799616]
超解像度(SR)は、映像コンテンツの視覚的品質を改善するための重要な技術である。リアルタイム再生をサポートするためには,高速SRモデルの実装が重要である。本稿では,圧縮映像の視覚的品質を高めるために,低複雑さSR手法RTSRを提案する。
論文参考訳（メタデータ） (2024-11-20T14:36:06Z)
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文参考訳（メタデータ） (2024-05-24T17:34:15Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文参考訳（メタデータ） (2024-03-04T18:46:20Z)
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文参考訳（メタデータ） (2023-10-11T17:52:39Z)
Super-Resolution Appearance Transfer for 4D Human Performances [29.361342747786164]
多視点ビデオからの4D再構成における一般的な問題は、キャプチャーされた動的テクスチャの外観の品質である。静的な高解像度の外観キャプチャ・リグから超高解像度の外観伝達による解を提案する。
論文参考訳（メタデータ） (2021-08-31T10:53:11Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。