Fugu-MT 論文翻訳(概要): Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

論文の概要: Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs

arxiv url: http://arxiv.org/abs/2403.12596v1
Date: Tue, 19 Mar 2024 10:03:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 14:33:18.708348
Title: Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
Title（参考訳）: チャートに基づく推論:LLMからVLMへの機能移行
Authors: Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma,
Abstract要約: 本稿では,大規模言語モデル (LLM) から視覚言語モデル (VLM) へ機能を移行する手法を提案する。最近導入されたChartQAでは、citetchen2023pali3によるPaLI3-5B VLMに適用すると、最先端の性能が得られる。我々のモデルは、citethieh2023蒸留によって導入されたマルチタスク損失を用いて微調整される。
参考スコア（独自算出の注目度）: 15.469974080478247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) are achieving increasingly strong performance on multimodal tasks. However, reasoning capabilities remain limited particularly for smaller VLMs, while those of large-language models (LLMs) have seen numerous improvements. We propose a technique to transfer capabilities from LLMs to VLMs. On the recently introduced ChartQA, our method obtains state-of-the-art performance when applied on the PaLI3-5B VLM by \citet{chen2023pali3}, while also enabling much better performance on PlotQA and FigureQA. We first improve the chart representation by continuing the pre-training stage using an improved version of the chart-to-table translation task by \citet{liu2023deplot}. We then propose constructing a 20x larger dataset than the original training set. To improve general reasoning capabilities and improve numerical operations, we synthesize reasoning traces using the table representation of charts. Lastly, our model is fine-tuned using the multitask loss introduced by \citet{hsieh2023distilling}. Our variant ChartPaLI-5B outperforms even 10x larger models such as PaLIX-55B without using an upstream OCR system, while keeping inference time constant compared to the PaLI3-5B baseline. When rationales are further refined with a simple program-of-thought prompt \cite{chen2023program}, our model outperforms the recently introduced Gemini Ultra and GPT-4V.
Abstract（参考訳）: 視覚言語モデル(VLM)は、マルチモーダルタスクにおいて、ますます強力なパフォーマンスを実現している。しかし、特に小型のVLMでは推論能力に制限があり、大規模言語モデル(LLM)では多くの改善が見られた。本稿では,LLMからVLMへ機能を移行する手法を提案する。最近導入されたChartQAでは,PaLI3-5B VLMに \citet{chen2023pali3} を適用した場合に,PlotQA と FigureQA でより優れた性能が得られる。まず, 先行学習段階を継続し, 表から表への変換タスクを \citet{liu2023deplot} で改善した。次に、元のトレーニングセットよりも20倍大きなデータセットを構築することを提案する。一般的な推論能力を向上し、数値演算を改善するために、チャートの表表現を用いて推論トレースを合成する。最後に,本モデルでは, \citet{hsieh2023distilling} が導入したマルチタスク損失を用いて微調整を行う。当社のChartPaLI-5Bは、上流のOCRシステムを使わずにPaLIX-55Bのような10倍のモデルでも性能が向上し、PaLI3-5Bベースラインと比較して推論時間を一定に保っている。単純なプログラム・オブ・シークレット・プロンプト \cite{chen2023 program} で合理性がさらに洗練されると、我々のモデルは、最近導入された Gemini Ultra と GPT-4V よりも優れている。

関連論文リスト

R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning [5.59181512260003]
単一のオブジェクト追跡は、その後のビデオフレームにおけるターゲットのスケールを連続的にローカライズし、推定することを目的としている。 Qwen2.5-VLはイメージペア間のテンプレートマッチングに苦労している。グループ相対政策最適化(GRPO)強化学習法を用いてQwen2.5-VLを微調整した。結果として得られたR1-Trackは、GOT-10kベンチマークで顕著な性能を達成した。
論文参考訳（メタデータ） (2025-06-27T07:41:15Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文参考訳（メタデータ） (2025-04-14T00:07:39Z)
Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation [26.19182768810174]
グラフ構造化データは、さまざまな領域でますます普及し、グラフタスクを処理する効果的なモデルに対する需要が高まっている。グラフニューラルネットワーク(GNN)のような従来のグラフ学習モデルは、大きな進歩を遂げているが、グラフデータを扱う能力は、特定のコンテキストにおいて制限されている。近年,グラフタスクの候補として大規模言語モデル (LLM) が登場しているが,ほとんどの研究はパフォーマンスベンチマークに重点を置いている。
論文参考訳（メタデータ） (2025-02-26T03:03:46Z)
METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling [100.33658998796064]
視覚言語モデル(VLM)をベースとした,効率的な自動チャート生成のためのマルチエージェントフレームワークを構築した。グラフ生成のタスクを特殊エージェント間の反復的協調に分解するマルチエージェントフレームワークMETALを提案する。
論文参考訳（メタデータ） (2025-02-24T21:01:39Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
Enhance Graph Alignment for Large Language Models [33.96082485852042]
グラフへのアプローチは、大規模言語モデルがグラフ情報を処理できることで人気がある。既存の手法は、自己監督タスクと下流タスクの間に不一致がある。協調タスクテンプレートの恩恵を受けるために,グラフアライメント大言語モデル(GALLM)を提案する。
論文参考訳（メタデータ） (2024-10-15T07:50:34Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models [38.41524186248607]
NV-Embedモデルに様々なアーキテクチャ設計とトレーニング手順を導入する。我々のモデルは、MTEB(Massive Text Embedding Benchmark)で1位、69.32の最高スコアを記録した。私たちはこのモデルを、https://face.co/EIR/NV-Embed-v1.comでオープンソース化しました。
論文参考訳（メタデータ） (2024-05-27T17:59:45Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。 ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文参考訳（メタデータ） (2024-02-19T14:48:23Z)
A Good Prompt Is Worth Millions of Parameters? Low-resource Prompt-based Learning for Vision-Language Models [50.27305012063483]
FewVLMは、視覚言語タスクに関する数発のプロンプトベースの学習ツールである。我々はプレフィックス言語モデリング(PrefixLM)とマスク言語モデリング(MaskedLM)を併用したシーケンス・ツー・シーケンス・トランスフォーマーモデルを事前訓練する。このプロンプトはゼロショット性能に大きく影響するが、少数ショット性能にはほとんど影響しない。
論文参考訳（メタデータ） (2021-10-16T06:07:59Z)
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。 SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文参考訳（メタデータ） (2021-08-24T18:14:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。