論文の概要: Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain
- arxiv url: http://arxiv.org/abs/2601.09298v1
- Date: Wed, 14 Jan 2026 09:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.345097
- Title: Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain
- Title(参考訳): ICTにおけるマルチモーダルLCMによる画像キャプション:一般領域と産業領域のギャップを埋める
- Authors: Lianying Chao, Haoran Cai, Xubin Li, Kai Zhang, Sijie Wu, Rui Xu,
- Abstract要約: 本稿では、ICTにおけるドメイン固有画像キャプチャーモデル(DICModel)の訓練のための多段階プログレッシブトレーニング戦略を提案する。
実験の結果,7Bパラメータしか持たないDICModelは,32Bパラメータを持つ他の最先端モデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 10.823938734002288
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the information and communications technology (ICT) industry, training a domain-specific large language model (LLM) or constructing a retrieval-augmented generation system requires a substantial amount of high-value domain knowledge. However, the knowledge is not only hidden in the textual modality but also in the image modality. Traditional methods can parse text from domain documents but dont have image captioning ability. Multi-modal LLM (MLLM) can understand images, but they do not have sufficient domain knowledge. To address the above issues, this paper proposes a multi-stage progressive training strategy to train a Domain-specific Image Captioning Model (DICModel) in ICT, and constructs a standard evaluation system to validate the performance of DICModel. Specifically, this work first synthesizes about 7K image-text pairs by combining the Mermaid tool and LLMs, which are used for the first-stage supervised-fine-tuning (SFT) of DICModel. Then, ICT-domain experts manually annotate about 2K image-text pairs for the second-stage SFT of DICModel. Finally, experts and LLMs jointly synthesize about 1.5K visual question answering data for the instruction-based SFT. Experimental results indicate that our DICModel with only 7B parameters performs better than other state-of-the-art models with 32B parameters. Compared to the SOTA models with 7B and 32B parameters, our DICModel increases the BLEU metric by approximately 56.8% and 20.8%, respectively. On the objective questions constructed by ICT domain experts, our DICModel outperforms Qwen2.5-VL 32B by 1% in terms of accuracy rate. In summary, this work can efficiently and accurately extract the logical text from images, which is expected to promote the development of multimodal models in the ICT domain.
- Abstract(参考訳): 情報通信技術(ICT)業界では、ドメイン固有の大規模言語モデル(LLM)を訓練したり、検索強化された生成システムを構築するには、かなりの量の高価値ドメイン知識が必要である。
しかし、その知識はテキストのモダリティだけでなく、画像のモダリティにも隠されている。
従来の手法では、ドメイン文書からテキストを解析できるが、画像キャプション機能はない。
MLLM(Multi-modal LLM)は、画像を理解することができるが、十分なドメイン知識を持っていない。
そこで本研究では,ICTにおけるドメイン固有画像キャプチャーモデル(DICModel)の訓練のための多段階進行訓練手法を提案し,DICModelの性能を評価するための標準評価システムを構築した。
具体的には、まず、DICModelの第一段教師付き微細チューニング(SFT)に使用されるMermaidツールとLLMを組み合わせることで、約7Kの画像テキストペアを合成する。
次に、ICTドメインの専門家は、DICModelの第2段SFTに対して、約2Kの画像テキストペアを手動で注釈付けする。
最後に、専門家とLLMは、命令ベースのSFTのための約1.5Kの視覚的質問応答データを共同で合成する。
実験の結果,7Bパラメータしか持たないDICModelは,32Bパラメータを持つ他の最先端モデルよりも優れた性能を示した。
7Bパラメータと32BパラメータのSOTAモデルと比較して、DICModelはBLEUメトリックをそれぞれ56.8%、20.8%増加させています。
ICT領域の専門家による客観的な質問に対して、DICModelは精度の点でQwen2.5-VL 32Bを1%上回っている。
要約すると,本研究は,ICT領域におけるマルチモーダルモデルの開発を促進することが期待される画像から論理テキストを効率よく,正確に抽出することができる。
関連論文リスト
- Text-Guided Semantic Image Encoder [25.15773515839525]
入力テキストクエリに条件付き画像表現を生成するテキストガイドセマンティックイメージ(TIE)を提案する。
TIEに基づく視覚言語モデル(VLM)は、画像タイル(トークン)の半分しか利用せず、優れた性能を実現している。
TIEは問合せ関連リージョンに一貫して参加し、解釈可能性と問合せ固有のグラウンドの両方を強化している。
論文 参考訳(メタデータ) (2025-11-25T19:04:04Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications [7.751808693373747]
MINT(Multimodal Integrated kNowledge Transfer)は、マルチモーダルバイオメディカルデータから、非モーダルな大規模デコーダモデルとドメイン固有の決定パターンを整合させるフレームワークである。
MINTは、高品質なマルチモーダルデータに基づいてトレーニングされた上流マルチモーダル機械学習(MML)モデルを利用して、ドメイン固有の洞察を下流のテキストオンリーまたはイメージオンリーのモデルに転送する。
論文 参考訳(メタデータ) (2025-05-09T02:28:41Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。