論文の概要: UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture
- arxiv url: http://arxiv.org/abs/2512.21675v1
- Date: Thu, 25 Dec 2025 13:35:52 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:38.944339
- Title: UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture
- Title(参考訳): UniPercept:美学、品質、構造、テクスチャの統一された知覚レベルイメージ理解を目指して
- Authors: Shuo Cao, Jiayang Li, Xiaohui Li, Yuandong Pu, Kaiwen Zhu, Yuanting Gao, Siqi Luo, Yi Xin, Qi Qin, Yu Zhou, Xiangyu Chen, Wenlong Zhang, Bin Fu, Yu Qiao, Yihao Liu,
- Abstract要約: UniPercept-Benchは3つの主要な領域(美学、品質、構造、テクスチャ)にまたがる知覚レベルのイメージ理解のための統合されたフレームワークである。
ドメイン指向の事前学習とタスク指向のRLによってトレーニングされた強力なベースラインUniPerceptを開発し、ビジュアルレーティング(VR)タスクと視覚質問応答(VQA)タスクの両方にわたって堅牢な一般化を可能にする。
- 参考スコア(独自算出の注目度): 46.88622050135756
- License:
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks such as visual grounding, segmentation, and captioning. However, their ability to perceive perceptual-level image features remains limited. In this work, we present UniPercept-Bench, a unified framework for perceptual-level image understanding across three key domains: Aesthetics, Quality, Structure and Texture. We establish a hierarchical definition system and construct large-scale datasets to evaluate perceptual-level image understanding. Based on this foundation, we develop a strong baseline UniPercept trained via Domain-Adaptive Pre-Training and Task-Aligned RL, enabling robust generalization across both Visual Rating (VR) and Visual Question Answering (VQA) tasks. UniPercept outperforms existing MLLMs on perceptual-level image understanding and can serve as a plug-and-play reward model for text-to-image generation. This work defines Perceptual-Level Image Understanding in the era of MLLMs and, through the introduction of a comprehensive benchmark together with a strong baseline, provides a solid foundation for advancing perceptual-level multimodal image understanding.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は視覚的接地、セグメンテーション、キャプションといった視覚的理解タスクにおいて顕著な進歩を遂げている。
しかし、知覚レベルの画像特徴を知覚する能力は依然として限られている。
本稿では,3つの主要領域(美学,品質,構造,テクスチャ)にわたる知覚レベルの画像理解のための統合フレームワークUniPercept-Benchを提案する。
階層的定義システムを構築し,大規模データセットを構築し,知覚レベルの画像理解を評価する。
この基盤に基づいて、我々は、ドメイン適応型事前学習とタスク適応RLを用いて訓練された強力なベースラインUniPerceptを開発し、ビジュアルレーティング(VR)タスクと視覚質問回答(VQA)タスクの両方にわたって堅牢な一般化を可能にする。
UniPerceptは、知覚レベルのイメージ理解において既存のMLLMよりも優れており、テキスト・ツー・イメージ生成のためのプラグ・アンド・プレイ報酬モデルとして機能する。
本研究は,MLLM時代の知覚レベルイメージ理解を定義し,強力なベースラインとともに包括的なベンチマークを導入することにより,知覚レベルのマルチモーダルイメージ理解を向上するための基盤となる。
関連論文リスト
- Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models [9.24989979549793]
VLM(Vision-Language Models)は、様々な現実世界のタスクにおいて顕著なパフォーマンスを示す。
これらのモデルは通常、画像のシリアライズによって視覚情報を処理する。
本稿では,デコード効率を向上させるために,プラグアンドプレイ型ビジュアルデコーダに基づく命令非依存のトークン圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-23T16:07:18Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。