論文の概要: MatCha: Enhancing Visual Language Pretraining with Math Reasoning and
Chart Derendering
- arxiv url: http://arxiv.org/abs/2212.09662v1
- Date: Mon, 19 Dec 2022 17:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:15:46.884689
- Title: MatCha: Enhancing Visual Language Pretraining with Math Reasoning and
Chart Derendering
- Title(参考訳): MatCha: 数学推論とチャートデレンダによるビジュアル言語事前トレーニングの強化
- Authors: Fangyu Liu, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton
Lee, Mandar Joshi, Yasemin Altun, Nigel Collier, Julian Martin Eisenschlos
- Abstract要約: 視覚言語モデルの能力を高めるために,MatCha (Math reasoning and Chart derendering pretraining)を提案する。
最近提案された画像からテキストまでのビジュアル言語モデルであるPix2Structから、MatChaの事前学習を行う。
PlotQAやChartQAのような標準ベンチマークでは、MatChaモデルは最先端のメソッドを最大20%上回っている。
- 参考スコア(独自算出の注目度): 35.400563170423595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual language data such as plots, charts, and infographics are ubiquitous
in the human world. However, state-of-the-art vision-language models do not
perform well on these data. We propose MatCha (Math reasoning and Chart
derendering pretraining) to enhance visual language models' capabilities in
jointly modeling charts/plots and language data. Specifically, we propose
several pretraining tasks that cover plot deconstruction and numerical
reasoning which are the key capabilities in visual language modeling.
We perform the MatCha pretraining starting from Pix2Struct, a recently
proposed image-to-text visual language model. On standard benchmarks such as
PlotQA and ChartQA, the MatCha model outperforms state-of-the-art methods by as
much as nearly 20%. We also examine how well MatCha pretraining transfers to
domains such as screenshots, textbook diagrams, and document figures and
observe overall improvement, verifying the usefulness of MatCha pretraining on
broader visual language tasks.
- Abstract(参考訳): プロット、チャート、インフォグラフィックなどのビジュアル言語データは、人間の世界で広く使われている。
しかし、最先端の視覚言語モデルはこれらのデータではうまく機能しない。
本稿では,グラフ/プロットと言語データの共同モデリングにおいて,視覚言語モデルの能力を高めるためにmatcha(math reasoning and chart derendering pretraining)を提案する。
具体的には、視覚言語モデリングにおける重要な機能であるプロットのデコンストラクションと数値推論を網羅する事前学習タスクを提案する。
我々は最近提案された画像からテキストまでのビジュアル言語モデルであるPix2StructからMatCha事前学習を行う。
PlotQAやChartQAのような標準ベンチマークでは、MatChaモデルは最先端のメソッドを最大20%上回っている。
また、スクリーンショット、教科書図、文書図などの領域への事前学習の精度を検証し、全体的な改善を観察し、より広い視覚言語タスクにおけるMateCha事前学習の有用性を検証する。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph
prediction [16.643252717745348]
本稿では,3次元シーングラフのための言語ベースの事前学習手法を提案する。
一般的な視覚言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。
提案手法は,メインセマンティックな3Dシーングラフベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-10-25T09:26:16Z) - Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。
我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文 参考訳(メタデータ) (2023-06-29T08:20:57Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。