Fugu-MT 論文翻訳(概要): HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models

論文の概要: HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.08378v2
Date: Fri, 13 Dec 2024 09:49:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 13:36:12.825724
Title: HyViLM: Enhancing Fine-Grained Recognition with a Hybrid Encoder for Vision-Language Models
Title（参考訳）: HyViLM:視覚言語モデルのためのハイブリッドエンコーダによる微粒化認識の実現
Authors: Shiding Zhu, Wenhui Dong, Jun Song, Yingbo Wang, Yanan Guo, Bo Zheng,
Abstract要約: HyViLMは、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されている。同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。
参考スコア（独自算出の注目度）: 15.128058747088222
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, there has been growing interest in the capability of multimodal large language models (MLLMs) to process high-resolution images. A common approach currently involves dynamically cropping the original high-resolution image into smaller sub-images, which are then fed into a vision encoder that was pre-trained on lower-resolution images. However, this cropping approach often truncates objects and connected areas in the original image, causing semantic breaks. To address this limitation, we introduce HyViLM, designed to process images of any resolution while retaining the overall context during encoding. Specifically, we: (i) Design a new visual encoder called Hybrid Encoder that not only encodes individual sub-images but also interacts with detailed global visual features, significantly improving the model's ability to encode high-resolution images. (ii) Propose an optimal feature fusion strategy for the dynamic cropping approach, effectively leveraging information from different layers of the vision encoder. Compared with the state-of-the-art MLLMs under the same setting, our HyViLM outperforms existing MLLMs in nine out of ten tasks. Specifically, HyViLM achieves a 9.6% improvement in performance on the TextVQA task and a 6.9% enhancement on the DocVQA task.
Abstract（参考訳）: 近年,マルチモーダル大規模言語モデル(MLLM)の高解像度画像処理能力への関心が高まっている。現在一般的なアプローチでは、元の高解像度画像をより小さなサブイメージに動的にトリミングし、低解像度の画像で事前訓練された視覚エンコーダに供給する。しかし、この収穫アプローチは、しばしば元の画像のオブジェクトと接続された領域を切断し、意味を損なう。この制限に対処するために、エンコーディング中に全体のコンテキストを保持しながら、任意の解像度の画像を処理するように設計されたHyViLMを導入する。具体的には (i)Hybrid Encoderと呼ばれる新しいビジュアルエンコーダを設計し、個々のサブイメージをエンコードするだけでなく、詳細なグローバルなビジュアル特徴と相互作用し、高解像度画像をエンコードするモデルの能力を大幅に向上させる。 2)視覚エンコーダの異なる層からの情報を効果的に活用し,動的収穫手法のための最適特徴融合戦略を提案する。同じ条件下での最先端のMLLMと比較して、HyViLMは既存のMLLMを10タスク中9タスクで上回ります。具体的には、HyViLMはTextVQAタスクのパフォーマンスが9.6%向上し、DocVQAタスクは6.9%向上した。

関連論文リスト

CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。 2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文参考訳（メタデータ） (2025-06-06T17:59:06Z)
Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。 Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。 SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文参考訳（メタデータ） (2025-01-24T06:42:06Z)
Elevating Flow-Guided Video Inpainting with Reference Generation [50.03502211226332]
ビデオインパインティング(VI)は、フレーム間で観測可能なコンテンツを効果的に伝播させながら、オリジナルビデオに存在しない新しいコンテンツを同時に生成する必要がある課題である。本稿では,より進んだ画素伝搬アルゴリズムと組み合わせて,参照生成のための大規模な生成モデルを活用する,堅牢で実用的なVIフレームワークを提案する。提案手法は,オブジェクト削除のためのフレームレベルの品質を著しく向上するだけでなく,ユーザが提供するテキストプロンプトに基づいて,欠落した領域の新たなコンテンツを合成する。
論文参考訳（メタデータ） (2024-12-12T06:13:00Z)
Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文参考訳（メタデータ） (2024-11-13T18:19:51Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
MixNet: Efficient Global Modeling for Ultra-High-Definition Image Restoration [36.15948393000783]
そこで我々は,MixNetという新たな画像復元手法を提案する。過剰な計算複雑性を伴わずに、機能の長距離依存性を捉えるために、Global Feature Modulation Layer (GFML)を提示する。低照度画像強調,水中画像強調,画像劣化,画像復調を含む4つのUHD画像復元タスクについて広範な実験を行い,提案手法が現在の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-19T12:40:54Z)
Matryoshka Diffusion Models [38.26966802461602]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文参考訳（メタデータ） (2023-10-23T17:20:01Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。