論文の概要: Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report
- arxiv url: http://arxiv.org/abs/2406.11403v1
- Date: Mon, 17 Jun 2024 10:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:11:33.224378
- Title: Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report
- Title(参考訳): CVPR第2回MMFMチャレンジ技術報告
- Authors: Franz Louis Cesista,
- Abstract要約: MMFM(Multimodal Foundation Models)は、様々なコンピュータビジョンや自然言語処理タスクにおいて顕著な性能を示す。
従来のユニモーダルモデルに比べて微調整やデプロイには、計算量、時間、エンジニアリングリソースがもっと必要になります。
本稿では,凍結MMFMの出力ロジットを制限する汎用フレームワークであるMultimodal Structured Generationを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Foundation Models (MMFMs) have shown remarkable performance on various computer vision and natural language processing tasks. However, their performance on particular tasks such as document understanding is still limited. They also require more compute, time, and engineering resources to finetune and deploy compared to traditional, unimodal models. In this report, we present Multimodal Structured Generation, a general framework which constrains the output logits of frozen MMFMs to force them to reason before responding with structured outputs that downstream APIs can parse and use. We provide a detailed account of our approach, including the technical details, theoretical discussions, and final evaluation results in the 2nd Multimodal Foundation Models Challenge hosted by the Computer Vision and Pattern Recognition (CVPR) conference. Our approach achieved the second highest score in the hidden test set for Phase 2 and third highest overall. This shows the method's ability to generalize to unseen tasks. And that simple engineering can beat expensive & complicated modelling steps as we first discussed in our paper, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. All of our scripts, deployment steps, and evaluation results can be accessed in https://github.com/leloykun/MMFM-Challenge
- Abstract(参考訳): MMFM(Multimodal Foundation Models)は、様々なコンピュータビジョンや自然言語処理タスクにおいて顕著な性能を示す。
しかし、文書理解のような特定のタスクにおけるパフォーマンスはまだ限られている。
また、従来のユニモーダルモデルと比較して微調整やデプロイには、計算量、時間、エンジニアリングリソースも必要です。
本稿では,凍結MMFMの出力ロジットを制限する汎用フレームワークであるMultimodal Structured Generationについて述べる。
CVPR(Computer Vision and Pattern Recognition)会議が主催する第2回Multimodal Foundation Models Challengeにおいて、技術的詳細、理論的議論、最終評価結果など、我々のアプローチの詳細な説明を行う。
我々のアプローチは第2相と第3相の隠れテストセットで2番目に高いスコアを獲得しました。
これは、メソッドが見えないタスクに一般化する能力を示している。
私たちの論文であるRetrieval Augmented Structured Generation: Business Document Information extract as Tool Useで最初に論じたように、シンプルなエンジニアリングは高価で複雑なモデリングステップを上回ることができます。
私たちのスクリプト、デプロイメントステップ、評価結果は、https://github.com/leloykun/MMFM-Challengeでアクセスできます。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。
また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。
最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文 参考訳(メタデータ) (2023-09-27T10:40:23Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。