論文の概要: Chart2Code-MoLA: Efficient Multi-Modal Code Generation via Adaptive Expert Routing
- arxiv url: http://arxiv.org/abs/2511.23321v1
- Date: Fri, 28 Nov 2025 16:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.980165
- Title: Chart2Code-MoLA: Efficient Multi-Modal Code Generation via Adaptive Expert Routing
- Title(参考訳): Chart2Code-MoLA: アダプティブエキスパートルーティングによる効率的なマルチモーダルコード生成
- Authors: Yifei Wang, Jacky Keung, Zhenyu Mao, Jingyu Zhang, Yuchen Cao,
- Abstract要約: C2C-MoLAは、Low-Rank Adaptation (LoRA)とMixture of Experts (MoE)を相乗化するフレームワークである
LoRAは、リソースを意識したチューニングのためのパラメータ効率の更新を可能にする。
Chart2Code-160kの実験では、提案されたモデルにより生成精度が最大17%向上した。
- 参考スコア(独自算出の注目度): 20.521717930460692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart-to-code generation is a critical task in automated data visualization, translating complex chart structures into executable programs. While recent Multi-modal Large Language Models (MLLMs) improve chart representation, existing approaches still struggle to achieve cross-type generalization, memory efficiency, and modular design. To address these challenges, this paper proposes C2C-MoLA, a multimodal framework that synergizes Mixture of Experts (MoE) with Low-Rank Adaptation (LoRA). The MoE component uses a complexity-aware routing mechanism with domain-specialized experts and load-balanced sparse gating, dynamically allocating inputs based on learnable structural metrics like element count and chart complexity. LoRA enables parameter-efficient updates for resource-conscious tuning, further supported by a tailored training strategy that aligns routing stability with semantic accuracy. Experiments on Chart2Code-160k show that the proposed model improves generation accuracy by up to 17%, reduces peak GPU memory by 18%, and accelerates convergence by 20%, when compared to standard fine-tuning and LoRA-only baselines, particularly on complex charts. Ablation studies validate optimal designs, such as 8 experts and rank-8 LoRA, and confirm scalability for real-world multimodal code generation.
- Abstract(参考訳): チャートからコードへの生成は、複雑なチャート構造を実行可能なプログラムに変換する自動データ可視化において重要なタスクである。
最近のMulti-modal Large Language Models (MLLM) はチャート表現を改善しているが、既存のアプローチはクロスタイプ一般化、メモリ効率、モジュラー設計の達成に苦慮している。
これらの課題に対処するため,本稿では,Mixture of Experts (MoE)とLo-Rank Adaptation (LoRA)を併用したマルチモーダルフレームワークであるC2C-MoLAを提案する。
MoEコンポーネントは、ドメインの専門家と負荷バランスのスパースゲーティングを備えた複雑性を意識したルーティング機構を使用し、要素数やチャートの複雑さといった学習可能な構造指標に基づいて、入力を動的に割り当てる。
LoRAは、リソースを意識したチューニングのためのパラメータ効率の高い更新を可能にし、ルーティング安定性とセマンティックな精度を整列する調整されたトレーニング戦略によってさらにサポートされた。
Chart2Code-160kの実験では、提案モデルが生成精度を最大17%向上し、ピークGPUメモリを18%削減し、コンバージェンスを20%高速化することを示した。
アブレーション研究は、8人の専門家やランク8のLoRAのような最適な設計を検証し、実世界のマルチモーダルコード生成のスケーラビリティを確認する。
関連論文リスト
- ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension [15.798942458550515]
本研究では、視覚的推論データセットを生成するための自動多段階コード駆動パイプラインを提案する。
トレーニング用38Kチャートと142KQ&Aペアを含む多次元・多段階データセットであるChartM$3$と,高品質な評価サンプル2,871。
論文 参考訳(メタデータ) (2025-11-04T09:45:34Z) - L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts [10.21556794551883]
L-MoE: LoRA エキスパートの軽量混合体について紹介する。
L-MoEは、MoEの専門家をタスク特化して低ランクのアダプタとして再定義する。
L-MoE の公式な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-19T08:44:25Z) - DynaSwarm: Dynamically Graph Structure Selection for LLM-based Multi-agent System [0.276240219662896]
DynaSwarmはマルチエージェントシステムを強化する動的フレームワークである。
グラフ構造を最適化するためにアクター-批判的強化学習機構を使用する。
また、動的グラフセレクタを持ち、各入力サンプルに対して最適なグラフ構造を適応的に選択する。
論文 参考訳(メタデータ) (2025-07-31T05:52:30Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling [101.69125547798514]
視覚言語モデル(VLM)をベースとした,効率的な自動チャート生成のためのマルチエージェントフレームワークを構築した。
グラフ生成のタスクを特殊エージェント間の反復的協調に分解するマルチエージェントフレームワークMETALを提案する。
論文 参考訳(メタデータ) (2025-02-24T21:01:39Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。