論文の概要: Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.11299v1
- Date: Mon, 13 Apr 2026 11:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.485722
- Title: Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning
- Title(参考訳): グリフ駆動ファインチューニングによる古代中国語文字進化解析のための多モーダル大言語モデルの構築
- Authors: Rui Song, Lida Shi, Ruihua Qi, Yingji Li, Hao Xu,
- Abstract要約: 我々は、古代中国のスクリプトの進化を分析する上でのMLLMの能力を評価するためのベンチマークを構築した。
本稿では,グリフ変換における進化的一貫性の獲得をモデルに推奨する,グリフ駆動の微調整フレームワーク(GEVO)を提案する。
- 参考スコア(独自算出の注目度): 19.57300493967679
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, rapid advances in Multimodal Large Language Models (MLLMs) have increasingly stimulated research on ancient Chinese scripts. As the evolution of written characters constitutes a fundamental pathway for understanding cultural transformation and historical continuity, how MLLMs can be systematically leveraged to support and advance text evolution analysis remains an open and largely underexplored problem. To bridge this gap, we construct a comprehensive benchmark comprising 11 tasks and over 130,000 instances, specifically designed to evaluate the capability of MLLMs in analyzing the evolution of ancient Chinese scripts. We conduct extensive evaluations across multiple widely used MLLMs and observe that, while existing models demonstrate a limited ability in glyph-level comparison, their performance on core tasks-such as character recognition and evolutionary reasoning-remains substantially constrained. Motivated by these findings, we propose a glyph-driven fine-tuning framework (GEVO) that explicitly encourages models to capture evolutionary consistency in glyph transformations and enhances their understanding of text evolution. Experimental results show that even models at the 2B scale achieve consistent and comprehensive performance improvements across all evaluated tasks. To facilitate future research, we publicly release both the benchmark and the trained models\footnote{https://github.com/songruiecho/GEVO}.
- Abstract(参考訳): 近年、MLLM(Multimodal Large Language Models)の急速な進歩は、古代中国語の文字の研究を刺激している。
文字の進化は、文化的変容と歴史的連続性を理解するための基本的な経路を構成するため、MLLMを体系的に活用してテキストの進化分析を支援し、前進させる方法については、未解明の未解決問題として残されている。
このギャップを埋めるため,11のタスクと13万のインスタンスからなる総合的なベンチマークを構築した。
複数のMLLMに対して広範囲な評価を行い、既存のモデルではグリフレベルの比較に限界がある一方で、文字認識や進化的推論などのコアタスクにおける性能は著しく制約されていることを示した。
これらの知見に触発されたGEVO(Glyph-driven fine-tuning framework)を提案する。
実験結果から,2Bスケールのモデルであっても,すべての評価タスクに対して一貫した総合的な性能向上が得られた。
今後の研究を促進するため、ベンチマークとトレーニングされたモデルの両方を公開している。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - A Comparative Study of Task Adaptation Techniques of Large Language Models for Identifying Sustainable Development Goals [39.71115518041856]
本研究では,国連の持続可能な開発目標に焦点をあてた,単一ラベルの多クラステキスト分類タスクを対象とした,プロプライエタリでオープンソースのテキスト分類モデルについて分析する。
その結果、より小さなモデルでは、プロンプトエンジニアリングによって最適化された場合、OpenAIのGPTのような大きなモデルと同等に動作できることが判明した。
論文 参考訳(メタデータ) (2025-06-18T07:42:32Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - When Large Language Models Meet Evolutionary Algorithms: Potential Enhancements and Challenges [50.280704114978384]
事前訓練された大規模言語モデル(LLM)は、自然なテキストを生成する強力な能力を示す。
進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
論文 参考訳(メタデータ) (2024-01-19T05:58:30Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。