論文の概要: Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
- arxiv url: http://arxiv.org/abs/2403.12596v1
- Date: Tue, 19 Mar 2024 10:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:33:18.708348
- Title: Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
- Title(参考訳): チャートに基づく推論:LLMからVLMへの機能移行
- Authors: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma,
- Abstract要約: 本稿では,大規模言語モデル (LLM) から視覚言語モデル (VLM) へ機能を移行する手法を提案する。
最近導入されたChartQAでは、citetchen2023pali3によるPaLI3-5B VLMに適用すると、最先端の性能が得られる。
我々のモデルは、citethieh2023蒸留によって導入されたマルチタスク損失を用いて微調整される。
- 参考スコア(独自算出の注目度): 15.469974080478247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by \citet{chen2023pali3}, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by \citet{liu2023deplot}. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by \citet{hsieh2023distilling}. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt \cite{chen2023program}, our model outperforms the recently introduced Gemini Ultra and GPT-4V.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルタスクにおいて、ますます強力なパフォーマンスを実現している。
しかし、特に小型のVLMでは推論能力に制限があり、大規模言語モデル(LLM)では多くの改善が見られた。
本稿では,LLMからVLMへ機能を移行する手法を提案する。
最近導入されたChartQAでは,PaLI3-5B VLMに \citet{chen2023pali3} を適用した場合に,PlotQA と FigureQA でより優れた性能が得られる。
まず, 先行学習段階を継続し, 表から表への変換タスクを \citet{liu2023deplot} で改善した。
次に、元のトレーニングセットよりも20倍大きなデータセットを構築することを提案する。
一般的な推論能力を向上し、数値演算を改善するために、チャートの表表現を用いて推論トレースを合成する。
最後に,本モデルでは, \citet{hsieh2023distilling} が導入したマルチタスク損失を用いて微調整を行う。
当社のChartPaLI-5Bは、上流のOCRシステムを使わずにPaLIX-55Bのような10倍のモデルでも性能が向上し、PaLI3-5Bベースラインと比較して推論時間を一定に保っている。
単純なプログラム・オブ・シークレット・プロンプト \cite{chen2023 program} で合理性がさらに洗練されると、我々のモデルは、最近導入された Gemini Ultra と GPT-4V よりも優れている。
関連論文リスト
- Enhance Graph Alignment for Large Language Models [33.96082485852042]
グラフへのアプローチは、大規模言語モデルがグラフ情報を処理できることで人気がある。
既存の手法は、自己監督タスクと下流タスクの間に不一致がある。
協調タスクテンプレートの恩恵を受けるために,グラフアライメント大言語モデル(GALLM)を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:50:34Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
NV-Embedモデルに様々なアーキテクチャ設計とトレーニング手順を導入する。
我々のモデルは、MTEB(Massive Text Embedding Benchmark)で1位、69.32の最高スコアを記録した。
私たちはこのモデルを、https://face.co/EIR/NV-Embed-v1.comでオープンソース化しました。
論文 参考訳(メタデータ) (2024-05-27T17:59:45Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。