論文の概要: Towards Open-ended Visual Quality Comparison
- arxiv url: http://arxiv.org/abs/2402.16641v1
- Date: Mon, 26 Feb 2024 15:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:19:17.162452
- Title: Towards Open-ended Visual Quality Comparison
- Title(参考訳): オープンエンドのビジュアル品質比較に向けて
- Authors: Haoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen,
Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu,
Guangtao Zhai, Shiqi Wang, and Weisi Lin
- Abstract要約: 我々は、新しい大規模マルチモーダリティモデル(LMM)のエッジを拡張し、視覚的品質比較をオープンエンド設定に進める。
Co-Instructはオープンソースのビジュアル品質比較ツールだ。
我々はCo-Instructが最先端のオープンソースLMMよりも30%高い精度で達成できることを実証した。
- 参考スコア(独自算出の注目度): 87.45004129101089
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Comparative settings (e.g. pairwise choice, listwise ranking) have been
adopted by a wide range of subjective studies for image quality assessment
(IQA), as it inherently standardizes the evaluation criteria across different
observers and offer more clear-cut responses. In this work, we extend the edge
of emerging large multi-modality models (LMMs) to further advance visual
quality comparison into open-ended settings, that 1) can respond to open-range
questions on quality comparison; 2) can provide detailed reasonings beyond
direct answers. To this end, we propose the Co-Instruct. To train this
first-of-its-kind open-source open-ended visual quality comparer, we collect
the Co-Instruct-562K dataset, from two sources: (a) LMM-merged single image
quality description, (b) GPT-4V "teacher" responses on unlabeled data.
Furthermore, to better evaluate this setting, we propose the MICBench, the
first benchmark on multi-image comparison for LMMs. We demonstrate that
Co-Instruct not only achieves 30% higher superior accuracy than
state-of-the-art open-source LMMs, but also outperforms GPT-4V (its teacher),
on both existing related benchmarks and the proposed MICBench. Our model is
published at https://huggingface.co/q-future/co-instruct.
- Abstract(参考訳): 比較設定(例えば、ペアワイズ選択、リストワイズランキング)は、画像品質評価(iqa)のための幅広い主観的研究で採用されている。
本研究では,新たな大規模マルチモダリティモデル(LMM)のエッジを拡張し,視覚的品質比較をオープンエンド設定へ拡張する。
1)品質比較に関するオープンレンジ質問に回答できる。
2) 直接回答以上の詳細な推論を提供することができる。
そこで我々は,コ・インストラクトを提案する。
このオープンソースのオープンソースの視覚的品質比較器を訓練するために、2つのソースからCo-Instruct-562Kデータセットを収集します。
(a)LMMをマージした単一画像品質記述
b) ラベルなしデータに対する GPT-4V "Teacher" 応答
さらに、この設定をよりよく評価するために、LMMのマルチイメージ比較に関する最初のベンチマークであるMICBenchを提案する。
我々は、Co-Instructが最先端のオープンソースLMMよりも30%高い精度を達成するだけでなく、既存のベンチマークと提案したMICBenchの両方でGPT-4V(教師)よりも優れていることを示した。
私たちのモデルはhttps://huggingface.co/q-future/co-instructで公開しています。
関連論文リスト
- Synthetic Multimodal Question Generation [60.33494376081317]
MMRAG(Multimodal Retrieval Augmented Generation)は,マルチモーダル文書に対する質問応答のための強力な手法である。
マルチモーダル文書から直接質問と回答のペアを生成する合成データ生成フレームワークSMMQGを提案する。
SMMQGを用いて、ウィキペディア文書上の1024の質問のMMRAGデータセットを生成し、それを用いて最先端のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-02T12:57:42Z) - Selectively Answering Visual Questions [14.867972139262907]
大規模マルチモーダルモデル(LMM)は、前例のない精度で視覚タスクを実行する能力を持って登場した。
テキスト内学習LMMを用いた視覚質問応答(VQA)のためのキャリブレーション手法とメトリクスの詳細な分析を行う。
テキストのみのテキスト学習よりも,視覚的に接地されたモデルの可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-03T04:28:10Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。