論文の概要: REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning
Datasets
- arxiv url: http://arxiv.org/abs/2310.06594v1
- Date: Tue, 10 Oct 2023 13:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 15:27:15.217863
- Title: REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning
Datasets
- Title(参考訳): revo-lion: 視覚言語インストラクションチューニングデータセットの評価と改良
- Authors: Ning Liao, Shaofeng Zhang, Renqiu Xia, Bo Zhang, Min Cao, Yu Qiao,
Junchi Yan
- Abstract要約: 我々は、Vision-Language Instruction-Tuning(VLIT)データセット自体を評価し、全能モデルを開発するためのデータセットを構築する方法を模索する。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
完全なデータの半分で、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 69.48627479729609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an emerging line of research on multimodal instruction tuning, and a
line of benchmarks have been proposed for evaluating these models recently.
Instead of evaluating the models directly, in this paper we try to evaluate the
Vision-Language Instruction-Tuning (VLIT) datasets themselves and further seek
the way of building a dataset for developing an all-powerful VLIT model, which
we believe could also be of utility for establishing a grounded protocol for
benchmarking VLIT models. For effective analysis of VLIT datasets that remains
an open question, we propose a tune-cross-evaluation paradigm: tuning on one
dataset and evaluating on the others in turn. For each single tune-evaluation
experiment set, we define the Meta Quality (MQ) as the mean score measured by a
series of caption metrics including BLEU, METEOR, and ROUGE-L to quantify the
quality of a certain dataset or a sample. On this basis, to evaluate the
comprehensiveness of a dataset, we develop the Dataset Quality (DQ) covering
all tune-evaluation sets. To lay the foundation for building a comprehensive
dataset and developing an all-powerful model for practical applications, we
further define the Sample Quality (SQ) to quantify the all-sided quality of
each sample. Extensive experiments validate the rationality of the proposed
evaluation paradigm. Based on the holistic evaluation, we build a new dataset,
REVO-LION (REfining VisiOn-Language InstructiOn tuNing), by collecting samples
with higher SQ from each dataset. With only half of the full data, the model
trained on REVO-LION can achieve performance comparable to simply adding all
VLIT datasets up. In addition to developing an all-powerful model, REVO-LION
also includes an evaluation set, which is expected to serve as a convenient
evaluation benchmark for future research.
- Abstract(参考訳): 近年,マルチモーダル・インストラクション・チューニングの研究が進み,これらのモデルを評価するためのベンチマークが提案されている。
本稿では、モデルを直接評価する代わりに、ビジョン・ランゲージ・インストラクション・チューニング(VLIT)データセット自体を評価し、VLITモデルをベンチマークするための基盤となるプロトコルを確立する上でも有用であると考える全パワーVLITモデルを開発するためのデータセットを構築する方法を模索する。
未解決の課題であるVLITデータセットを効果的に分析するために,1つのデータセットをチューニングし,他のデータセットを順に評価するチューニング横断評価パラダイムを提案する。
各音質評価実験セットに対して,メタ品質(MQ)をBLEU, METEOR, ROUGE-Lといった一連のキャプション指標の平均値として定義し, 特定のデータセットやサンプルの品質を定量化する。
本研究では,データセットの包括性を評価するために,すべてのチューン評価セットをカバーするデータセット品質(dq)を開発する。
包括的データセットの構築と実用アプリケーションのための全能モデル開発の基礎を築くため、サンプル品質(SQ)をさらに定義し、各サンプルの全側面品質を定量化する。
大規模実験は提案した評価パラダイムの合理性を検証する。
総合評価に基づいて,各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LION(Refining VisiOn-Language InstructiOn tuNing)を構築した。
完全なデータの半分で、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができる。
全能モデルの開発に加えて、REVO-LIONは将来の研究に便利な評価ベンチマークとして期待されている評価セットも含んでいる。
関連論文リスト
- DataSciBench: An LLM Agent Benchmark for Data Science [33.3811507234528]
DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。
我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。
我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:31:51Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。
モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-06T06:20:11Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - FlashEval: Towards Fast and Accurate Evaluation of Text-to-image Diffusion Generative Models [28.44922164328789]
テキストから画像への生成モデルの評価は、開発プロセスにおける重要なステップである。
データ選択の評価に適した反復探索アルゴリズムであるFlashEvalを提案する。
検索した50-itemサブセットは,COCOアノテーションのランダムサンプリング500-itemサブセットに匹敵する評価精度が得られた。
論文 参考訳(メタデータ) (2024-03-25T02:53:32Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。