論文の概要: LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content
- arxiv url: http://arxiv.org/abs/2410.10783v2
- Date: Tue, 15 Oct 2024 06:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:34:54.163863
- Title: LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content
- Title(参考訳): LiveXiv - Arxiv Papersコンテンツに基づくマルチモーダルライブベンチマーク
- Authors: Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes,
- Abstract要約: 我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
- 参考スコア(独自算出の注目度): 62.816876067499415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale training of multi-modal models on data scraped from the web has shown outstanding utility in infusing these models with the required world knowledge to perform effectively on multiple downstream tasks. However, one downside of scraping data from the web can be the potential sacrifice of the benchmarks on which the abilities of these models are often evaluated. To safeguard against test data contamination and to truly test the abilities of these foundation models we propose LiveXiv: A scalable evolving live benchmark based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts at any given timestamp and proposes to automatically generate visual question-answer pairs (VQA). This is done without any human-in-the-loop, using the multi-modal content in the manuscripts, like graphs, charts, and tables. Moreover, we introduce an efficient evaluation approach that estimates the performance of all models on the evolving benchmark using evaluations of only a subset of models. This significantly reduces the overall evaluation cost. We benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the first version of our benchmark, showing its challenging nature and exposing the models true abilities, avoiding contamination. Lastly, in our commitment to high quality, we have collected and evaluated a manually verified subset. By comparing its overall results to our automatic annotations, we have found that the performance variance is indeed minimal (<2.5%). Our dataset is available online on HuggingFace, and our code will be available here.
- Abstract(参考訳): ウェブからスクラップされたデータに対するマルチモーダルモデルの大規模なトレーニングは、これらのモデルを複数の下流タスクで効果的に実行するために必要な世界知識に注入する際、優れた実用性を示している。
しかし、Webからデータを抽出する1つの欠点は、これらのモデルの能力がしばしば評価されるベンチマークの潜在的な犠牲になる可能性がある。
テストデータの汚染から保護し、これらの基礎モデルの能力を真にテストするために、LiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的質問応答ペア(VQA)を自動的に生成することを提案する。
これは、グラフ、チャート、テーブルなど、原稿のマルチモーダルコンテンツを使用して、ループ内で人間を使わずに行われる。
さらに,モデルのサブセットのみの評価を用いて,進化ベンチマーク上での全モデルの性能を推定する,効率的な評価手法を提案する。
これにより、全体的な評価コストが大幅に削減される。
ベンチマークの最初のバージョンでは、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルを真の能力として公開し、汚染を避ける。
最後に、高品質へのコミットメントとして、手動で検証されたサブセットを収集し、評価しました。
全体的な結果と自動アノテーションを比較することで、パフォーマンスのばらつきは確かに最小限 (2.5%) であることが分かりました。
私たちのデータセットはHuggingFaceでオンラインで公開されています。
関連論文リスト
- VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MAPX: An explainable model-agnostic framework for the detection of false information on social media networks [1.5196326555431678]
我々はMAPXと呼ばれる新しいモデルに依存しないフレームワークを導入し、予測のエビデンスに基づくアグリゲーションを可能にする。
我々は、MAPXの有効性を示すために、ベンチマークされた偽ニュースデータセットに対して広範な実験を行った。
実験結果から,提案手法は評価されたすべての最先端モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-13T03:45:10Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - SelfEval: Leveraging the discriminative nature of generative models for
evaluation [35.7242199928684]
そこで本研究では,テキスト・画像生成モデルを「逆」にすることで,テキスト・画像認識能力を評価できることを示す。
提案手法はSelfEvalと呼ばれ,テキストプロンプトが与えられた実画像の確率を計算するために生成モデルを用いている。
論文 参考訳(メタデータ) (2023-11-17T18:58:16Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。