論文の概要: Exploring Instruction Data Quality for Explainable Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2510.03880v1
- Date: Sat, 04 Oct 2025 17:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.319767
- Title: Exploring Instruction Data Quality for Explainable Image Quality Assessment
- Title(参考訳): 説明可能な画像品質評価のためのインストラクションデータ品質の探索
- Authors: Yunhao Li, Sijing Wu, Huiyu Duan, Yucheng Zhu, Qi Jia, Guangtao Zhai,
- Abstract要約: 説明可能なIQAのための指導調律データセットにおけるデータ品質の役割について検討する。
データセットのサブセットをランダムに選択することで、インストラクションチューニングデータセット全体のトレーニングよりも優れた結果が得られます。
本稿では,クラスタリング特徴抽出,クラスタクォータ割り当て,クラスタサンプリング戦略の3段階からなるクラスタリングに基づくデータ選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 58.345719195248314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, with the rapid development of powerful multimodal large language models (MLLMs), explainable image quality assessment (IQA) has gradually become popular, aiming at providing quality-related descriptions and answers of images. To achieve this goal, recent methods seek to construct a large-scale instruction tuning dataset to empower the MLLM with quality perception ability following the well-known scaling law. However, a large amount of instruction tuning data may cause substantial computational costs and redundant data, which in turn will cause harm to the performance of the model. To cope with this problem, in this paper, we challenge the scaling law and systematically investigate the role of data quality of the instruction tuning dataset for explainable IQA. Using a powerful pre-trained MLLM, we first investigate the changes in model performance after fine-tuning with different sizes of instruction tuning data. We find that selecting a subset of the data set randomly using an appropriate ratio can even lead to better results than training with the entire instruction tuning dataset, demonstrating the redundancy of current explainable IQA instruction tuning data. Beyond randomly sampling a subset, we propose a clustering-based data selection framework with three stages: clustering feature extraction, cluster quota allocation, and cluster sampling strategy. Then we systematically analyze the choices of each stage and propose a simple but efficient data selection method IQA-Select for explainable IQA. The experimental results demonstrate that IQA-Select can achieve 102.1% and 103.7% performance of full fine-tuning using only 10% selected data in Q-Bench and AesBench respectively, significantly reducing computational costs while achieving better performance.
- Abstract(参考訳): 近年,強力なマルチモーダル大規模言語モデル (MLLM) の急速な発展に伴い,画像の品質評価 (IQA) が徐々に普及し,画像の品質に関する記述や回答の提供が目指されている。
この目的を達成するために,近年の手法は,MLLMのスケール法則に従う品質認知能力を高めるため,大規模なチューニングチューニングデータセットの構築を試みている。
しかし、大量の命令チューニングデータがかなりの計算コストと冗長なデータを引き起こし、結果としてモデルの性能に悪影響を及ぼす可能性がある。
この問題に対処するため,本論文ではスケーリング法に挑戦し,説明可能なIQAのためのインストラクションチューニングデータセットのデータ品質の役割を体系的に検討する。
まず,命令チューニングデータの大きさの異なる微調整後のモデル性能の変化について検討する。
適切な比率でデータセットのサブセットをランダムに選択することで、命令チューニングデータセット全体のトレーニングよりも優れた結果が得られることを発見し、現在の説明可能なIQA命令チューニングデータの冗長性を実証した。
サブセットをランダムにサンプリングする以外に、クラスタリング特徴抽出、クラスタクォータ割り当て、クラスタサンプリング戦略の3段階からなるクラスタリングベースのデータ選択フレームワークを提案する。
そこで我々は,各ステージの選択を体系的に分析し,説明可能なIQAのための簡易かつ効率的なデータ選択法IQA-Selectを提案する。
実験の結果、IQA-SelectはQ-BenchとAesBenchで選択された10%のデータしか使用せず、完全な微調整で102.1%と103.7%の性能を達成できることがわかった。
関連論文リスト
- T-SHIRT: Token-Selective Hierarchical Data Selection for Instruction Tuning [5.963754140027611]
Token-Selective HIeRarchical Data Selection for Instruction Tuning (T-SHIRT)は、新しいデータ選択フレームワークである。
我々は、キュレートされたデータセットでチューニングされたモデルが、大規模データセット全体においてトレーニングされたモデルよりも優れていることを実証した。
論文 参考訳(メタデータ) (2025-06-02T04:59:17Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。