論文の概要: Teaching Large Language Models to Regress Accurate Image Quality Scores using Score Distribution
- arxiv url: http://arxiv.org/abs/2501.11561v1
- Date: Mon, 20 Jan 2025 16:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:29.542969
- Title: Teaching Large Language Models to Regress Accurate Image Quality Scores using Score Distribution
- Title(参考訳): スコア分布を用いた画像品質スコアの精度向上のための大規模言語モデルの提案
- Authors: Zhiyuan You, Xin Cai, Jinjin Gu, Tianfan Xue, Chao Dong,
- Abstract要約: 我々は,Multi-modal Large Language Models (MLLM) を用いて,正確な品質スコアを回帰する。
鍵となる課題は、品質スコアが本質的に連続であり、一般的にガウス分布としてモデル化されるのに対し、MLLMは離散トークン出力を生成することである。
スコア分布をソフトラベルに識別する分布に基づく手法を提案する。
スコア分布の特性を保存し、高精度で画像間関係を維持する。
- 参考スコア(独自算出の注目度): 27.411948623919226
- License:
- Abstract: With the rapid advancement of Multi-modal Large Language Models (MLLMs), MLLM-based Image Quality Assessment (IQA) methods have shown promising performance in linguistic quality description. However, current methods still fall short in accurately scoring image quality. In this work, we aim to leverage MLLMs to regress accurate quality scores. A key challenge is that the quality score is inherently continuous, typically modeled as a Gaussian distribution, whereas MLLMs generate discrete token outputs. This mismatch necessitates score discretization. Previous approaches discretize the mean score into a one-hot label, resulting in information loss and failing to capture inter-image relationships. We propose a distribution-based approach that discretizes the score distribution into a soft label. This method preserves the characteristics of the score distribution, achieving high accuracy and maintaining inter-image relationships. Moreover, to address dataset variation, where different IQA datasets exhibit various distributions, we introduce a fidelity loss based on Thurstone's model. This loss captures intra-dataset relationships, facilitating co-training across multiple IQA datasets. With these designs, we develop the distribution-based Depicted image Quality Assessment model for Score regression (DeQA-Score). Experiments across multiple benchmarks show that DeQA-Score stably outperforms baselines in score regression. Also, DeQA-Score can predict the score distribution that closely aligns with human annotations. Codes and model weights have been released in https://depictqa.github.io/deqa-score/.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の急速な進歩に伴い,MLLMに基づく画像品質評価(IQA)手法は,言語的品質記述において有望な性能を示した。
しかし、現在の手法は画像の品質を正確に評価するにはまだ不足している。
本研究は,MLLMを利用して正確な品質スコアを抑えることを目的とする。
鍵となる課題は、品質スコアが本質的に連続であり、一般的にガウス分布としてモデル化されるのに対し、MLLMは離散トークン出力を生成することである。
このミスマッチはスコアの離散化を必要とする。
以前のアプローチでは、平均スコアを1ホットラベルに識別し、結果として情報損失が発生し、画像間の関係を捉えることができない。
スコア分布をソフトラベルに識別する分布に基づく手法を提案する。
スコア分布の特性を保存し、高精度で画像間関係を維持する。
さらに、様々なIQAデータセットが様々な分布を示すデータセットの変動に対処するために、サーストンのモデルに基づく忠実度損失を導入する。
この損失はデータセット内の関係を捉え、複数のIQAデータセット間のコトレーニングを容易にする。
これらの設計により、スコア回帰(DeQA-Score)のための分布に基づく画像品質評価モデルを開発した。
複数のベンチマークでの実験では、DeQA-Scoreはスコアレグレッションのベースラインを安定的に上回っている。
また、DeQA-Scoreは人間のアノテーションと密接に一致したスコア分布を予測できる。
コードとモデルの重み付けはhttps://depictqa.github.io/deqa-score/.comで公開されている。
関連論文リスト
- MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Incorporating Crowdsourced Annotator Distributions into Ensemble
Modeling to Improve Classification Trustworthiness for Ancient Greek Papyri [3.870354915766567]
このようなデータセットの問題を複雑にする2つの問題は、クラス不均衡とラベリングにおける地道不確実性である。
このようなデータセットに対するアンサンブルモデリングの応用は、地上の真実が疑問視されている画像を特定し、それらのサンプルの信頼性を定量化するのに役立ちます。
論文 参考訳(メタデータ) (2022-10-28T19:39:14Z) - Understanding out-of-distribution accuracies through quantifying
difficulty of test samples [10.266928164137635]
既存の研究によると、現代のニューラルネットワークは、分布内データセット(ID)において顕著な一般化性能を達成するが、分布外データセット(OOD)では精度が著しく低下する。
トレーニングデータセットとモデルの相互作用に依存するテスト画像(IDまたはOOD)の難易度を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-28T21:13:41Z) - Auto-Encoding Score Distribution Regression for Action Quality
Assessment [41.45638722765149]
ビデオからのアクション品質評価(AQA)は難しい視力課題である。
伝統的に、AQAタスクは、ビデオとアクションスコアの間の基盤となるマッピングを学ぶための回帰問題として扱われる。
上記の問題に対処するため、配電用オートエンコーダ(DAE)を開発した。
論文 参考訳(メタデータ) (2021-11-22T07:30:04Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。