論文の概要: On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets
- arxiv url: http://arxiv.org/abs/2310.06594v2
- Date: Sat, 30 Dec 2023 02:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:36:41.840977
- Title: On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets
- Title(参考訳): 視覚言語指導調整データセットの評価と改善について
- Authors: Ning Liao, Shaofeng Zhang, Renqiu Xia, Min Cao, Yu Qiao, Junchi Yan
- Abstract要約: VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
- 参考スコア(独自算出の注目度): 71.54954966652286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an emerging line of research on multimodal instruction tuning, and a
line of benchmarks has been proposed for evaluating these models recently.
Instead of evaluating the models directly, in this paper, we try to evaluate
the Vision-Language Instruction-Tuning (VLIT) datasets. Also, we seek the way
of building a dataset for developing an all-powerful VLIT model, which we
believe could also be of utility for establishing a grounded protocol for
benchmarking VLIT models. For effective evaluation of VLIT datasets that
remains an open question, we propose a tune-cross-evaluation paradigm: tuning
on one dataset and evaluating on the others in turn. For each single
tune-evaluation experiment set, we define the Meta Quality (MQ) as the mean
score obtained by a set of caption metrics including BLEU, METEOR, and ROUGE-L
to quantify the quality of a certain dataset or a sample. On this basis, to
evaluate the comprehensiveness of a dataset, we develop the Dataset Quality
(DQ) covering all tune-evaluation sets. To lay the foundation for building a
comprehensive dataset and developing an all-powerful model for practical
applications, we define the Sample Quality (SQ) to quantify the all-sided
quality of each sample. Extensive experiments validate the rationality of the
proposed evaluation paradigm. Based on the holistic evaluation, we build a new
dataset, REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting
samples with higher SQ from each dataset. Remarkably, even with only half of
the complete data, the model trained on REVO-LION can achieve the performance
comparable to simply adding all VLIT datasets up. Furthermore, REVO-LION not
only facilitates the development of a powerful model but also incorporates an
evaluation set, which is designed to serve as a convenient benchmark for future
research in the field.
- Abstract(参考訳): 近年,マルチモーダル・インストラクション・チューニングの研究が進み,これらのモデルを評価するためのベンチマークが提案されている。
本稿では,モデルを直接評価する代わりに,VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
また、全能VLITモデルを構築するためのデータセットを構築する方法を模索しており、VLITモデルをベンチマークするための基盤となるプロトコルを確立するのにも有用であると考えている。
未解決の課題であるVLITデータセットを効果的に評価するために,1つのデータセットをチューニングし,他のデータセットを順に評価するチューニング横断評価パラダイムを提案する。
各音質評価実験セットについて,メタ品質(MQ)をBLEU,METEOR,ROUGE-Lといったキャプション指標のセットの平均値として定義し,特定のデータセットやサンプルの品質を定量化する。
本研究では,データセットの包括性を評価するために,すべてのチューン評価セットをカバーするデータセット品質(dq)を開発する。
包括的データセットの構築と実用アプリケーションのための全能モデル開発の基礎を築くため、サンプル品質(SQ)を定義し、各サンプルの全側面品質を定量化する。
大規模実験は提案した評価パラダイムの合理性を検証する。
総合評価に基づいて,各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LION(Refining VisiOn-Language InstructiOn tuNing)を構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
さらに、REVO-LIONは強力なモデルの開発を促進するだけでなく、将来の研究に便利なベンチマークとして設計された評価セットも組み込んでいる。
関連論文リスト
- RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - OMNIINPUT: A Model-centric Evaluation Framework through Output
Distribution [31.00645110294068]
我々は,AI/MLモデルの予測品質を,可能なすべての入力に対して評価するモデル中心評価フレームワークOmniInputを提案する。
提案手法では, 学習モデルの入力と出力分布を求めるために, 効率的なサンプリング器を用いる。
実験により,OmniInputはモデル間のよりきめ細かい比較を可能にした。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。
OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文 参考訳(メタデータ) (2023-06-18T14:38:29Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。