論文の概要: LLMRA: Multi-modal Large Language Model based Restoration Assistant
- arxiv url: http://arxiv.org/abs/2401.11401v1
- Date: Sun, 21 Jan 2024 04:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:45:59.793123
- Title: LLMRA: Multi-modal Large Language Model based Restoration Assistant
- Title(参考訳): LLMRA:マルチモーダル大言語モデルに基づく復元支援
- Authors: Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang
- Abstract要約: 本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワークを提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
本手法は,MLLMからの画像劣化に先立ち,入力された低品質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
- 参考スコア(独自算出の注目度): 25.534022968675337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have a significant impact on
various tasks, due to their extensive knowledge and powerful perception and
generation capabilities. However, it still remains an open research problem on
applying MLLMs to low-level vision tasks. In this paper, we present a simple
MLLM-based Image Restoration framework to address this gap, namely Multi-modal
Large Language Model based Restoration Assistant (LLMRA). We exploit the
impressive capabilities of MLLMs to obtain the degradation information for
universal image restoration. By employing a pretrained multi-modal large
language model and a vision language model, we generate text descriptions and
encode them as context embedding with degradation information for the degraded
image. Through the proposed Context Enhance Module (CEM) and Degradation
Context based Transformer Network (DC-former), we integrate these context
embedding into the restoration network, contributing to more accurate and
adjustable image restoration. Based on the dialogue with the users, our method
leverages image degradation priors from MLLMs, providing low-level attributes
descriptions of the input low-quality images and the restored high-quality
images simultaneously. Extensive experiments demonstrate the superior
performance of our LLMRA in universal image restoration tasks.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、幅広い知識と強力な知覚と生成能力により、様々なタスクに重大な影響を与える。
しかし、MLLMを低レベル視覚タスクに適用するためのオープンな研究課題として依然として残っている。
本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワーク,すなわちLLMRA(Multi-modal Large Language Model based Restoration Assistant)を提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
事前学習されたマルチモーダル大言語モデルと視覚言語モデルを用いることで,テキスト記述を生成し,分解画像の分解情報を含むコンテキスト埋め込みとしてエンコードする。
提案したContext Enhance Module (CEM) とDegradation Context based Transformer Network (DC-former) を通じて、これらのコンテキストを復元ネットワークに統合し、より正確で調整可能な画像復元に寄与する。
ユーザとの対話に基づいて,MLLMによる画像劣化の先行情報を活用し,入力された低画質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
画像復元作業におけるLLMRAの優れた性能を示す大規模な実験を行った。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration [17.47612023350466]
マルチモーダルなインサイトを持つ拡散型復元法であるMRIRを提案する。
テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。
視覚レベルでは、主にピクセルレベルの制御に焦点を合わせ、Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。