論文の概要: What Makes a Good Generated Image? Investigating Human and Multimodal LLM Image Preference Alignment
- arxiv url: http://arxiv.org/abs/2509.12750v1
- Date: Tue, 16 Sep 2025 07:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.936495
- Title: What Makes a Good Generated Image? Investigating Human and Multimodal LLM Image Preference Alignment
- Title(参考訳): 良質な画像を作るものは何か? 人間とマルチモーダルなLLM画像のコンフィグレーション
- Authors: Rishab Parthasarathy, Jasmine Collins, Cory Stephenson,
- Abstract要約: 画像の美学、アーティファクトの欠如、解剖学的正確性、構成的正確性、オブジェクトの付着性、スタイルといった特性は、LLMとヒトの両方にとって、画像品質の判断に重要である。
本研究では,各画像品質属性間のタスク間相関を用いて,人間の判断にどの属性が関係しているかを理解する。
本研究では,各軸の高次制御による合成データセットの生成により,個々の画像品質特性について検討する。
- 参考スコア(独自算出の注目度): 2.377763909750371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated evaluation of generative text-to-image models remains a challenging problem. Recent works have proposed using multimodal LLMs to judge the quality of images, but these works offer little insight into how multimodal LLMs make use of concepts relevant to humans, such as image style or composition, to generate their overall assessment. In this work, we study what attributes of an image--specifically aesthetics, lack of artifacts, anatomical accuracy, compositional correctness, object adherence, and style--are important for both LLMs and humans to make judgments on image quality. We first curate a dataset of human preferences using synthetically generated image pairs. We use inter-task correlation between each pair of image quality attributes to understand which attributes are related in making human judgments. Repeating the same analysis with LLMs, we find that the relationships between image quality attributes are much weaker. Finally, we study individual image quality attributes by generating synthetic datasets with a high degree of control for each axis. Humans are able to easily judge the quality of an image with respect to all of the specific image quality attributes (e.g. high vs. low aesthetic image), however we find that some attributes, such as anatomical accuracy, are much more difficult for multimodal LLMs to learn to judge. Taken together, these findings reveal interesting differences between how humans and multimodal LLMs perceive images.
- Abstract(参考訳): 生成テキスト・画像モデルの自動評価は依然として難しい問題である。
近年の研究では、画像の質を判断するためにマルチモーダル LLM が提案されているが、これらの研究は、マルチモーダル LLM が画像スタイルや構成など、人間に関連する概念をどのように活用して全体評価を生成するかについての知見をほとんど提供していない。
本研究では, 画像の美学, アーティファクトの欠如, 解剖学的正確性, 構成的正確性, オブジェクトの付着性, スタイルの属性について検討し, 画像品質の判断にLLMと人間の両方が重要であることを示す。
まず、合成画像ペアを用いて人間の好みのデータセットをキュレートする。
本研究では,各画像品質属性間のタスク間相関を用いて,人間の判断にどの属性が関係しているかを理解する。
同じ解析をLLMで繰り返すと、画像品質特性の関係がずっと弱いことが分かる。
最後に,各軸の高次制御による合成データセットの生成により,個々の画像品質特性について検討する。
人間は、特定の画像品質特性(例えば、高画質と低美的画像)について、画像の品質を容易に判断できるが、解剖学的精度などのいくつかの属性は、マルチモーダルLCMが判断するのがずっと困難である。
これらの結果は、人間とマルチモーダルLLMがどのようにイメージを知覚するかという興味深い違いを示している。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Non-Reference Quality Assessment for Medical Imaging: Application to Synthetic Brain MRIs [0.0]
本研究では,3次元ResNetをトレーニングすることで脳MRI品質を評価するための,ディープラーニングに基づく新しい非参照手法を提案する。
このネットワークは、MRIスキャンでよく見られる6つの異なるアーティファクトで品質を推定するように設計されている。
その結果、歪みを正確に推定し、複数の視点から画質を反映する性能が向上した。
論文 参考訳(メタデータ) (2024-07-20T22:05:30Z) - VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文 参考訳(メタデータ) (2024-03-19T15:07:08Z) - QGFace: Quality-Guided Joint Training For Mixed-Quality Face Recognition [2.8519768339207356]
混合品質顔認証のための新しい品質誘導型共同訓練手法を提案する。
品質分割に基づいて、分類に基づく手法が本社データ学習に用いられている。
識別情報を欠いたLQ画像に対しては,自己教師付き画像イメージコントラスト学習を用いて学習する。
論文 参考訳(メタデータ) (2023-12-29T06:56:22Z) - IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models [23.99102775778499]
本稿では,画像品質評価システムIQAGPTを紹介する。
トレーニングと評価のためのCT-IQAデータセットを構築した。
LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
論文 参考訳(メタデータ) (2023-12-25T09:13:18Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。