論文の概要: LLMRA: Multi-modal Large Language Model based Restoration Assistant
- arxiv url: http://arxiv.org/abs/2401.11401v1
- Date: Sun, 21 Jan 2024 04:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:45:59.793123
- Title: LLMRA: Multi-modal Large Language Model based Restoration Assistant
- Title(参考訳): LLMRA:マルチモーダル大言語モデルに基づく復元支援
- Authors: Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
- Abstract要約: 本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワークを提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
本手法は,MLLMからの画像劣化に先立ち,入力された低品質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
- 参考スコア(独自算出の注目度): 25.534022968675337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have a significant impact on
various tasks, due to their extensive knowledge and powerful perception and
generation capabilities. However, it still remains an open research problem on
applying MLLMs to low-level vision tasks. In this paper, we present a simple
MLLM-based Image Restoration framework to address this gap, namely Multi-modal
Large Language Model based Restoration Assistant (LLMRA). We exploit the
impressive capabilities of MLLMs to obtain the degradation information for
universal image restoration. By employing a pretrained multi-modal large
language model and a vision language model, we generate text descriptions and
encode them as context embedding with degradation information for the degraded
image. Through the proposed Context Enhance Module (CEM) and Degradation
Context based Transformer Network (DC-former), we integrate these context
embedding into the restoration network, contributing to more accurate and
adjustable image restoration. Based on the dialogue with the users, our method
leverages image degradation priors from MLLMs, providing low-level attributes
descriptions of the input low-quality images and the restored high-quality
images simultaneously. Extensive experiments demonstrate the superior
performance of our LLMRA in universal image restoration tasks.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、幅広い知識と強力な知覚と生成能力により、様々なタスクに重大な影響を与える。
しかし、MLLMを低レベル視覚タスクに適用するためのオープンな研究課題として依然として残っている。
本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワーク,すなわちLLMRA(Multi-modal Large Language Model based Restoration Assistant)を提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
事前学習されたマルチモーダル大言語モデルと視覚言語モデルを用いることで,テキスト記述を生成し,分解画像の分解情報を含むコンテキスト埋め込みとしてエンコードする。
提案したContext Enhance Module (CEM) とDegradation Context based Transformer Network (DC-former) を通じて、これらのコンテキストを復元ネットワークに統合し、より正確で調整可能な画像復元に寄与する。
ユーザとの対話に基づいて,MLLMによる画像劣化の先行情報を活用し,入力された低画質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
画像復元作業におけるLLMRAの優れた性能を示す大規模な実験を行った。
関連論文リスト
- From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large
Image-Language Models [55.06726432948678]
本稿では,IT-LVLMの性能をコンピュータビジョンの基本的なタスクで評価するためのスケーラブルなテストベッドを提案する。
MERLIMには279K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
この結果から,最先端のIT-LVMLは細かな視覚概念の特定に依然として限界があることが示唆された。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。