論文の概要: REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning
Datasets
- arxiv url: http://arxiv.org/abs/2310.06594v1
- Date: Tue, 10 Oct 2023 13:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:27:15.217863
- Title: REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning
Datasets
- Title(参考訳): revo-lion: 視覚言語インストラクションチューニングデータセットの評価と改良
- Authors: Ning Liao, Shaofeng Zhang, Renqiu Xia, Bo Zhang, Min Cao, Yu Qiao,
Junchi Yan
- Abstract要約: 我々は、Vision-Language Instruction-Tuning(VLIT)データセット自体を評価し、全能モデルを開発するためのデータセットを構築する方法を模索する。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
完全なデータの半分で、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 69.48627479729609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an emerging line of research on multimodal instruction tuning, and a
line of benchmarks have been proposed for evaluating these models recently.
Instead of evaluating the models directly, in this paper we try to evaluate the
Vision-Language Instruction-Tuning (VLIT) datasets themselves and further seek
the way of building a dataset for developing an all-powerful VLIT model, which
we believe could also be of utility for establishing a grounded protocol for
benchmarking VLIT models. For effective analysis of VLIT datasets that remains
an open question, we propose a tune-cross-evaluation paradigm: tuning on one
dataset and evaluating on the others in turn. For each single tune-evaluation
experiment set, we define the Meta Quality (MQ) as the mean score measured by a
series of caption metrics including BLEU, METEOR, and ROUGE-L to quantify the
quality of a certain dataset or a sample. On this basis, to evaluate the
comprehensiveness of a dataset, we develop the Dataset Quality (DQ) covering
all tune-evaluation sets. To lay the foundation for building a comprehensive
dataset and developing an all-powerful model for practical applications, we
further define the Sample Quality (SQ) to quantify the all-sided quality of
each sample. Extensive experiments validate the rationality of the proposed
evaluation paradigm. Based on the holistic evaluation, we build a new dataset,
REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting samples
with higher SQ from each dataset. With only half of the full data, the model
trained on REVO-LION can achieve performance comparable to simply adding all
VLIT datasets up. In addition to developing an all-powerful model, REVO-LION
also includes an evaluation set, which is expected to serve as a convenient
evaluation benchmark for future research.
- Abstract(参考訳): 近年,マルチモーダル・インストラクション・チューニングの研究が進み,これらのモデルを評価するためのベンチマークが提案されている。
本稿では、モデルを直接評価する代わりに、ビジョン・ランゲージ・インストラクション・チューニング(VLIT)データセット自体を評価し、VLITモデルをベンチマークするための基盤となるプロトコルを確立する上でも有用であると考える全パワーVLITモデルを開発するためのデータセットを構築する方法を模索する。
未解決の課題であるVLITデータセットを効果的に分析するために,1つのデータセットをチューニングし,他のデータセットを順に評価するチューニング横断評価パラダイムを提案する。
各音質評価実験セットに対して,メタ品質(MQ)をBLEU, METEOR, ROUGE-Lといった一連のキャプション指標の平均値として定義し, 特定のデータセットやサンプルの品質を定量化する。
本研究では,データセットの包括性を評価するために,すべてのチューン評価セットをカバーするデータセット品質(dq)を開発する。
包括的データセットの構築と実用アプリケーションのための全能モデル開発の基礎を築くため、サンプル品質(SQ)をさらに定義し、各サンプルの全側面品質を定量化する。
大規模実験は提案した評価パラダイムの合理性を検証する。
総合評価に基づいて,各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LION(Refining VisiOn-Language InstructiOn tuNing)を構築した。
完全なデータの半分で、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができる。
全能モデルの開発に加えて、REVO-LIONは将来の研究に便利な評価ベンチマークとして期待されている評価セットも含んでいる。
関連論文リスト
- FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models [28.44922164328789]
テキストから画像への生成モデルの評価は、開発プロセスにおける重要なステップである。
データ選択の評価に適した反復探索アルゴリズムであるFlashEvalを提案する。
検索した50-itemサブセットは,COCOアノテーションのランダムサンプリング500-itemサブセットに匹敵する評価精度が得られた。
論文 参考訳(メタデータ) (2024-03-25T02:53:32Z) - OMNIINPUT: A Model-centric Evaluation Framework through Output
Distribution [31.00645110294068]
我々は,AI/MLモデルの予測品質を,可能なすべての入力に対して評価するモデル中心評価フレームワークOmniInputを提案する。
提案手法では, 学習モデルの入力と出力分布を求めるために, 効率的なサンプリング器を用いる。
実験により,OmniInputはモデル間のよりきめ細かい比較を可能にした。
論文 参考訳(メタデータ) (2023-12-06T04:53:12Z) - OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。
OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文 参考訳(メタデータ) (2023-06-18T14:38:29Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。