Fugu-MT 論文翻訳(概要): DePlot: One-shot visual language reasoning by plot-to-table translation

論文の概要: DePlot: One-shot visual language reasoning by plot-to-table translation

arxiv url: http://arxiv.org/abs/2212.10505v1
Date: Tue, 20 Dec 2022 18:20:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 13:25:02.955423
Title: DePlot: One-shot visual language reasoning by plot-to-table translation
Title（参考訳）: DePlot:プロットからテーブルへの変換によるワンショット視覚言語推論
Authors: Fangyu Liu, Julian Martin Eisenschlos, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Wenhu Chen, Nigel Collier, Yasemin Altun
Abstract要約: 本稿では,視覚言語推論における最初のワンショットソリューションを提案する。 DePlotと名付けられたモダリティ変換モジュールは、プロットやチャートのイメージを線形化されたテーブルに変換する。次に、DePlotの出力を直接使用して、事前訓練された大きな言語モデルをプロンプトすることができる。
参考スコア（独自算出の注目度）: 50.28850068391312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual language such as charts and plots is ubiquitous in the human world. Comprehending plots and charts requires strong reasoning skills. Prior state-of-the-art (SOTA) models require at least tens of thousands of training examples and their reasoning capabilities are still much limited, especially on complex human-written queries. This paper presents the first one-shot solution to visual language reasoning. We decompose the challenge of visual language reasoning into two steps: (1) plot-to-text translation, and (2) reasoning over the translated text. The key in this method is a modality conversion module, named as DePlot, which translates the image of a plot or chart to a linearized table. The output of DePlot can then be directly used to prompt a pretrained large language model (LLM), exploiting the few-shot reasoning capabilities of LLMs. To obtain DePlot, we standardize the plot-to-table task by establishing unified task formats and metrics, and train DePlot end-to-end on this task. DePlot can then be used off-the-shelf together with LLMs in a plug-and-play fashion. Compared with a SOTA model finetuned on more than >28k data points, DePlot+LLM with just one-shot prompting achieves a 24.0% improvement over finetuned SOTA on human-written queries from the task of chart QA.
Abstract（参考訳）: チャートやプロットのような視覚言語は、人間の世界で広く使われている。プロットやチャートの理解には強力な推論スキルが必要です。事前のstate-of-the-art(sota)モデルは、少なくとも数万のトレーニング例を必要とし、その推論能力はまだ限られている。本稿では,ビジュアル言語推論に対する最初のワンショットソリューションを提案する。視覚言語推論の課題を,(1)プロットからテキストへの翻訳,(2)翻訳テキスト上での推論という2つのステップに分解する。この方法のキーはデプロット(deplot)と呼ばれるモダリティ変換モジュールで、プロットやチャートの画像を線形化されたテーブルに変換する。 DePlotの出力は、LLMの少数ショット推論機能を利用して、事前訓練された大規模言語モデル(LLM)を直接的に使用することができる。デプロットを得るために、統一されたタスクフォーマットとメトリクスを確立し、このタスクをエンド・ツー・エンドにトレーニングすることでプロット・トゥ・テーブルタスクを標準化する。次にDePlotは、LLMとともに、プラグアンドプレイ方式でオフザシェルフで使用することができる。 28k以上のデータポイントで微調整されたSOTAモデルと比較して、1ショットプロンプトのみのDePlot+LLMは、チャートQAのタスクから人書きクエリで微調整されたSOTAよりも24.0%改善されている。

関連論文リスト

POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering [69.52231076699756]
PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
論文参考訳（メタデータ） (2025-07-16T06:09:02Z)
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models [17.444066202370397]
言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
論文参考訳（メタデータ） (2025-03-12T14:41:10Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。 textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文参考訳（メタデータ） (2025-01-11T17:52:22Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。 ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
SIMPLOT: Enhancing Chart Question Answering by Distilling Essentials [15.522722875552892]
本稿では,チャート推論に必要な要素のみを抽出するSIMPLOTを提案する。私たちのモデルは、追加のアノテーションやデータセットを必要とせずに、正確なチャート推論を可能にします。
論文参考訳（メタデータ） (2024-02-22T14:04:22Z)
GraphTranslator: Aligning Graph Model to Large Language Model for Open-ended Tasks [44.02825843494608]
ChatGPTのような大規模言語モデル(LLM)は強力なゼロショットと命令追従機能を備えている。 GraphTranslatorは、事前に定義されたタスクを効果的に処理するためにGMを活用することを目的としている。ノード表現をトークンに変換することで、GraphTranslatorはLLMに言語命令に基づいた予測を行う権限を与える。
論文参考訳（メタデータ） (2024-02-11T13:24:13Z)
DOMINO: A Dual-System for Multi-step Visual Language Reasoning [76.69157235928594]
視覚情報抽出のための「System-1」ステップと、意図的な推論のための「System-2」ステップからなる多段階マルチモーダル推論のためのデュアルシステムを提案する。事前学習した System-2 モジュールを用いた本手法は, 配当データと配当データの先行処理と比較して, 競合的に動作する。
論文参考訳（メタデータ） (2023-10-04T13:29:47Z)
GenPlot: Increasing the Scale and Diversity of Chart Derendering Data [0.0]
我々は、合成データを用いて、チャートデレンダリングのための何十億ものプロットを生成するプロットジェネレータであるGenPlotを提案する。 OCR-free chart-to-text translation は視覚言語タスクの最先端の結果を得た。
論文参考訳（メタデータ） (2023-06-20T17:25:53Z)
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文参考訳（メタデータ） (2023-04-05T00:25:27Z)
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。 BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。 BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文参考訳（メタデータ） (2022-01-28T12:49:48Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。