論文の概要: DePlot: One-shot visual language reasoning by plot-to-table translation
- arxiv url: http://arxiv.org/abs/2212.10505v1
- Date: Tue, 20 Dec 2022 18:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:25:02.955423
- Title: DePlot: One-shot visual language reasoning by plot-to-table translation
- Title(参考訳): DePlot:プロットからテーブルへの変換によるワンショット視覚言語推論
- Authors: Fangyu Liu, Julian Martin Eisenschlos, Francesco Piccinno, Syrine
Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Wenhu Chen, Nigel Collier,
Yasemin Altun
- Abstract要約: 本稿では,視覚言語推論における最初のワンショットソリューションを提案する。
DePlotと名付けられたモダリティ変換モジュールは、プロットやチャートのイメージを線形化されたテーブルに変換する。
次に、DePlotの出力を直接使用して、事前訓練された大きな言語モデルをプロンプトすることができる。
- 参考スコア(独自算出の注目度): 50.28850068391312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual language such as charts and plots is ubiquitous in the human world.
Comprehending plots and charts requires strong reasoning skills. Prior
state-of-the-art (SOTA) models require at least tens of thousands of training
examples and their reasoning capabilities are still much limited, especially on
complex human-written queries. This paper presents the first one-shot solution
to visual language reasoning. We decompose the challenge of visual language
reasoning into two steps: (1) plot-to-text translation, and (2) reasoning over
the translated text. The key in this method is a modality conversion module,
named as DePlot, which translates the image of a plot or chart to a linearized
table. The output of DePlot can then be directly used to prompt a pretrained
large language model (LLM), exploiting the few-shot reasoning capabilities of
LLMs. To obtain DePlot, we standardize the plot-to-table task by establishing
unified task formats and metrics, and train DePlot end-to-end on this task.
DePlot can then be used off-the-shelf together with LLMs in a plug-and-play
fashion. Compared with a SOTA model finetuned on more than >28k data points,
DePlot+LLM with just one-shot prompting achieves a 24.0% improvement over
finetuned SOTA on human-written queries from the task of chart QA.
- Abstract(参考訳): チャートやプロットのような視覚言語は、人間の世界で広く使われている。
プロットやチャートの理解には強力な推論スキルが必要です。
事前のstate-of-the-art(sota)モデルは、少なくとも数万のトレーニング例を必要とし、その推論能力はまだ限られている。
本稿では,ビジュアル言語推論に対する最初のワンショットソリューションを提案する。
視覚言語推論の課題を,(1)プロットからテキストへの翻訳,(2)翻訳テキスト上での推論という2つのステップに分解する。
この方法のキーはデプロット(deplot)と呼ばれるモダリティ変換モジュールで、プロットやチャートの画像を線形化されたテーブルに変換する。
DePlotの出力は、LLMの少数ショット推論機能を利用して、事前訓練された大規模言語モデル(LLM)を直接的に使用することができる。
デプロットを得るために、統一されたタスクフォーマットとメトリクスを確立し、このタスクをエンド・ツー・エンドにトレーニングすることでプロット・トゥ・テーブルタスクを標準化する。
次にDePlotは、LLMとともに、プラグアンドプレイ方式でオフザシェルフで使用することができる。
28k以上のデータポイントで微調整されたSOTAモデルと比較して、1ショットプロンプトのみのDePlot+LLMは、チャートQAのタスクから人書きクエリで微調整されたSOTAよりも24.0%改善されている。
関連論文リスト
- GraphTranslator: Aligning Graph Model to Large Language Model for
Open-ended Tasks [44.02825843494608]
ChatGPTのような大規模言語モデル(LLM)は強力なゼロショットと命令追従機能を備えている。
GraphTranslatorは、事前に定義されたタスクを効果的に処理するためにGMを活用することを目的としている。
ノード表現をトークンに変換することで、GraphTranslatorはLLMに言語命令に基づいた予測を行う権限を与える。
論文 参考訳(メタデータ) (2024-02-11T13:24:13Z) - DOMINO: A Dual-System for Multi-step Visual Language Reasoning [76.69157235928594]
視覚情報抽出のための「System-1」ステップと、意図的な推論のための「System-2」ステップからなる多段階マルチモーダル推論のためのデュアルシステムを提案する。
事前学習した System-2 モジュールを用いた本手法は, 配当データと配当データの先行処理と比較して, 競合的に動作する。
論文 参考訳(メタデータ) (2023-10-04T13:29:47Z) - GenPlot: Increasing the Scale and Diversity of Chart Derendering Data [0.0]
我々は、合成データを用いて、チャートデレンダリングのための何十億ものプロットを生成するプロットジェネレータであるGenPlotを提案する。
OCR-free chart-to-text translation は視覚言語タスクの最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-20T17:25:53Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Zero Shot Crosslingual Eye-Tracking Data Prediction using Multilingual
Transformer Models [0.0]
本稿では,多言語データセットの読解パターンを予測するCMCL 2022共有タスクについて述べる。
本モデルでは, 平均偏差と標準偏差の統計的測度を予測するために, 変圧器のテキスト表現と回帰層を用いた手作業による特徴量を用いる。
エンド・ツー・エンドのモデルをトレーニングし、異なる言語から意味のある情報を抽出し、2つの別々のデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2022-03-30T17:11:48Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。