論文の概要: Chimera: Improving Generalist Model with Domain-Specific Experts
- arxiv url: http://arxiv.org/abs/2412.05983v2
- Date: Fri, 10 Jan 2025 12:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:51.842992
- Title: Chimera: Improving Generalist Model with Domain-Specific Experts
- Title(参考訳): Chimera: ドメインの専門家によるジェネリストモデルの改善
- Authors: Tianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue,
- Abstract要約: ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。
具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。
結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
- 参考スコア(独自算出の注目度): 35.706585190958634
- License:
- Abstract: Recent advancements in Large Multi-modal Models (LMMs) underscore the importance of scaling by increasing image-text paired data, achieving impressive performance on general tasks. Despite their effectiveness in broad applications, generalist models are primarily trained on web-scale datasets dominated by natural images, resulting in the sacrifice of specialized capabilities for domain-specific tasks that require extensive domain prior knowledge. Moreover, directly integrating expert models tailored for specific domains is challenging due to the representational gap and imbalanced optimization between the generalist model and experts. To address these challenges, we introduce Chimera, a scalable and low-cost multi-modal pipeline designed to boost the ability of existing LMMs with domain-specific experts. Specifically, we design a progressive training strategy to integrate features from expert models into the input of a generalist LMM. To address the imbalanced optimization caused by the well-aligned general visual encoder, we introduce a novel Generalist-Specialist Collaboration Masking (GSCM) mechanism. This results in a versatile model that excels across the chart, table, math, and document domains, achieving state-of-the-art performance on multi-modal reasoning and visual content extraction tasks, both of which are challenging tasks for assessing existing LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、画像とテキストのペアデータの増加によるスケーリングの重要性を強調し、一般的なタスクにおける印象的なパフォーマンスを実現している。
広範に応用されているにもかかわらず、ジェネラリストモデルは、主に自然画像に支配されるWebスケールのデータセットに基づいて訓練されており、ドメイン固有のタスクに対して、広範なドメイン事前知識を必要とする特別な能力を犠牲にしている。
さらに、特定のドメインに適したエキスパートモデルを直接統合することは、ジェネラリストモデルとエキスパートの間の表現的ギャップと不均衡な最適化のために困難である。
これらの課題に対処するために,ドメインの専門家による既存のLMMの能力向上を目的とした,スケーラブルで低コストなマルチモーダルパイプラインであるChimeraを紹介した。
具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。
汎用ビジュアルエンコーダによって生じる不均衡な最適化に対処するために,我々は新しいジェネラリスト-スペシャリスト協調マスキング(GSCM)機構を導入する。
これにより、チャート、表、数学、文書領域をまたいだ多目的モデルが実現され、マルチモーダル推論およびビジュアルコンテンツ抽出タスクにおける最先端のパフォーマンスが達成され、どちらも既存のLMMを評価する上で困難なタスクである。
関連論文リスト
- AIDE: Agentically Improve Visual Language Model with Domain Experts [39.34183197101934]
AIDE(Agentic Improvement through Domain Experts)は、Visual Language Modelsが自律的に機能を強化することを可能にする新しいフレームワークである。
AIDEは、(1)洗練のためのインスタンスの識別、(2)対象分析のためのドメインエキスパートの関与、(3)既存のデータによるエキスパートアウトプットの合成、(4)強化されたインスタンスをトレーニングパイプラインに統合する4段階のプロセスで運用されている。
論文 参考訳(メタデータ) (2025-02-13T08:05:44Z) - Can Multimodal Large Language Models be Guided to Improve Industrial Anomaly Detection? [5.979778557940213]
従来の産業異常検出モデルは、しばしば柔軟性と適応性に苦しむ。
MLLM(Multimodal Large Language Models)の最近の進歩は、これらの制限を克服することを約束している。
IADのためのMLLM性能を向上させるために設計された,新しいマルチエキスパートフレームワークであるEchoを提案する。
論文 参考訳(メタデータ) (2025-01-27T05:41:10Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - Flexible and Adaptable Summarization via Expertise Separation [59.26639426529827]
熟練した要約モデルは、柔軟性と適応性の両方を示すべきである。
我々は,Mixture-of-Expert SummarizationアーキテクチャであるMoeSummを提案する。
我々のモデルでは、一般とドメイン固有の要約能力の分離は、顕著な柔軟性と適応性を与えている。
論文 参考訳(メタデータ) (2024-06-08T05:31:19Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。