論文の概要: The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts
- arxiv url: http://arxiv.org/abs/2409.00447v1
- Date: Sat, 31 Aug 2024 12:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:49:38.604930
- Title: The MERIT Dataset: Modelling and Efficiently Rendering Interpretable Transcripts
- Title(参考訳): MERITデータセット:解釈可能なトランスクリプトのモデリングと効率的なレンダリング
- Authors: I. de Rodrigo, A. Sanchez-Cuadrado, J. Boal, A. J. Lopez-Lopez,
- Abstract要約: 本稿では,学校レポートの文脈における完全ラベル付きデータセットであるMERITデータセットを紹介する。
その性質上、MERITデータセットは、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。
データセットの有用性を示すため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが重要な課題となることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the MERIT Dataset, a multimodal (text + image + layout) fully labeled dataset within the context of school reports. Comprising over 400 labels and 33k samples, the MERIT Dataset is a valuable resource for training models in demanding Visually-rich Document Understanding (VrDU) tasks. By its nature (student grade reports), the MERIT Dataset can potentially include biases in a controlled way, making it a valuable tool to benchmark biases induced in Language Models (LLMs). The paper outlines the dataset's generation pipeline and highlights its main features in the textual, visual, layout, and bias domains. To demonstrate the dataset's utility, we present a benchmark with token classification models, showing that the dataset poses a significant challenge even for SOTA models and that these would greatly benefit from including samples from the MERIT Dataset in their pretraining phase.
- Abstract(参考訳): 本稿では,学校レポートのコンテキスト内で,マルチモーダル(テキスト+画像+レイアウト)完全ラベル付きデータセットであるMERITデータセットを紹介する。
400以上のラベルと33kのサンプルを含むMERITデータセットは、Visually-rich Document Understanding (VrDU)タスクのトレーニングモデルに有用なリソースである。
MERITデータセットは、その性質(学年レポート)により、制御された方法でバイアスを含む可能性があるため、言語モデル(LLM)で誘導されるバイアスをベンチマークするための貴重なツールである。
論文では、データセットの生成パイプラインの概要と、テキスト、ビジュアル、レイアウト、バイアスドメインの主な機能を強調している。
データセットの有用性を実証するため,トークン分類モデルを用いたベンチマークを行い,SOTAモデルにおいてもデータセットが大きな課題となることを示し,MERITデータセットからのサンプルを事前学習フェーズに含めることで大きなメリットが期待できることを示した。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark [26.233696733521757]
我々は,幅広い要件を満たす合成,半合成,実世界のデータセット群を開発し,導入する。
これらのデータセットは、関連するグラフ構造や、モデルの公正な評価に不可欠なバイアス情報を含むように設計されている。
データセット全体にわたるグラフ学習手法による広範な実験結果から,これらの手法の性能をベンチマークする上での有効性が示された。
論文 参考訳(メタデータ) (2024-03-09T21:33:26Z) - Abstractive Text Summarization for Resumes With Cutting Edge NLP
Transformers and LSTM [0.0]
LSTM、事前訓練されたモデル、微調整されたモデルは履歴書のデータセットを用いて評価された。
履歴データセットを微調整したBART-Largeモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2023-06-23T06:33:20Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。
情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文 参考訳(メタデータ) (2023-05-04T01:08:15Z) - Label-Free Model Evaluation with Semi-Structured Dataset Representations [78.54590197704088]
ラベルなしモデル評価(AutoEval)は、ラベルなしテストセットでモデル精度を推定する。
画像ラベルがない場合、データセット表現に基づいて、回帰を伴うAutoEvalのモデル性能を推定する。
本稿では,AutoEvalのリッチな情報を含む回帰学習のための半構造化データセット表現を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:15:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。