論文の概要: Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
- arxiv url: http://arxiv.org/abs/2403.12596v1
- Date: Tue, 19 Mar 2024 10:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:33:18.708348
- Title: Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
- Title(参考訳): チャートに基づく推論:LLMからVLMへの機能移行
- Authors: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma,
- Abstract要約: 本稿では,大規模言語モデル (LLM) から視覚言語モデル (VLM) へ機能を移行する手法を提案する。
最近導入されたChartQAでは、citetchen2023pali3によるPaLI3-5B VLMに適用すると、最先端の性能が得られる。
我々のモデルは、citethieh2023蒸留によって導入されたマルチタスク損失を用いて微調整される。
- 参考スコア(独自算出の注目度): 15.469974080478247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by \citet{chen2023pali3}, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by \citet{liu2023deplot}. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by \citet{hsieh2023distilling}. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt \cite{chen2023program}, our model outperforms the recently introduced Gemini Ultra and GPT-4V.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルタスクにおいて、ますます強力なパフォーマンスを実現している。
しかし、特に小型のVLMでは推論能力に制限があり、大規模言語モデル(LLM)では多くの改善が見られた。
本稿では,LLMからVLMへ機能を移行する手法を提案する。
最近導入されたChartQAでは,PaLI3-5B VLMに \citet{chen2023pali3} を適用した場合に,PlotQA と FigureQA でより優れた性能が得られる。
まず, 先行学習段階を継続し, 表から表への変換タスクを \citet{liu2023deplot} で改善した。
次に、元のトレーニングセットよりも20倍大きなデータセットを構築することを提案する。
一般的な推論能力を向上し、数値演算を改善するために、チャートの表表現を用いて推論トレースを合成する。
最後に,本モデルでは, \citet{hsieh2023distilling} が導入したマルチタスク損失を用いて微調整を行う。
当社のChartPaLI-5Bは、上流のOCRシステムを使わずにPaLIX-55Bのような10倍のモデルでも性能が向上し、PaLI3-5Bベースラインと比較して推論時間を一定に保っている。
単純なプログラム・オブ・シークレット・プロンプト \cite{chen2023 program} で合理性がさらに洗練されると、我々のモデルは、最近導入された Gemini Ultra と GPT-4V よりも優れている。
関連論文リスト
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [19.499980585836834]
大規模言語モデル(LLM)は,タスク解決プロセスに関するイラストが提供されないと動作が悪くなる。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based
Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。
我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。
このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文 参考訳(メタデータ) (2021-10-16T06:07:59Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。