論文の概要: Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report
- arxiv url: http://arxiv.org/abs/2406.11403v2
- Date: Tue, 04 Feb 2025 19:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:42.638655
- Title: Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report
- Title(参考訳): CVPR第2回MMFMチャレンジ技術報告
- Authors: Franz Louis Cesista,
- Abstract要約: マルチモーダル・ファンデーション・モデル (MMFM) はコンピュータビジョンと自然言語処理の両方において強力な性能を示している。
我々は,MMFMに厳密な構造化形式で出力を出力させる(凍結)フレームワークであるMultimodal Structured Generationを提案する。
CVPR 2nd MMFM Challengeにおいて,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multimodal Foundation Models (MMFMs) have demonstrated strong performance in both computer vision and natural language processing tasks. However, their performance diminishes in tasks that require a high degree of integration between these modalities, such as document understanding. Moreover, finetuning these models and deploying them requires significantly more compute and more engineering effort than unimodal models. In this work, we present Multimodal Structured Generation, a framework that forces (frozen) MMFMs to produce outputs in a strictly structured format by applying hard constraints directly to the output logits. This approach not only ensures that the model generates parseable outputs that downstream APIs can easily ingest but also allows us to force the model to reason before answering, which significantly boosts performance without the need for expensive fine-tuning. We demonstrate the effectiveness of our method through competitive results in the CVPR 2nd MMFM Challenge, highlighting that carefully designed lightweight engineering can outperform expensive and complicated modeling approaches. All of our scripts, deployment steps, and evaluation results can be accessed in https://github.com/leloykun/MMFM-Challenge
- Abstract(参考訳): マルチモーダル・ファンデーション・モデル (MMFM) はコンピュータビジョンと自然言語処理の両方において強力な性能を示している。
しかし、それらのパフォーマンスは、文書理解のようなこれらのモダリティ間の高度な統合を必要とするタスクにおいて低下する。
さらに、これらのモデルを微調整してデプロイするには、ユニモーダルモデルよりも計算量とエンジニアリングの労力がかなり必要になります。
本稿では,MMFMに厳密な構造化形式で出力を強制するフレームワークであるMultimodal Structured Generationを提案する。
このアプローチは、ダウンストリームAPIが容易に取り込むことができるパース可能な出力を生成するだけでなく、応答前にモデルに推論を強制することを可能にします。
CVPR 2nd MMFM Challengeにおいて,提案手法の有効性を示すとともに,設計した軽量工学が高価で複雑なモデリング手法よりも優れていることを示す。
私たちのスクリプト、デプロイメントステップ、評価結果は、https://github.com/leloykun/MMFM-Challengeでアクセスできます。
関連論文リスト
- MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Variational Information Pursuit with Large Language and Multimodal
Models for Interpretable Predictions [9.07837207208113]
変分情報探索 (V-IP) は、設計によって解釈可能な予測を行うためのフレームワークである。
任意のタスクにV-IPを適用するには、ドメインの専門家による密集した概念ラベル付きデータサンプルが必要である。
我々は、この制限に対処するために、FM(Foundational Models)でV-IPフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-08-24T05:04:10Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Long-Span Dependencies in Transformer-based Summarization Systems [38.672160430296536]
トランスフォーマティブベースのモデルは、文書要約を含む幅広い自然言語処理(nlp)タスクで最先端の結果を達成している。
これらのトランスベースのモデルの1つの問題は、入力長が増加するにつれてメモリと計算要件の点でうまくスケールしないことである。
本研究では,事前学習された大規模トランスフォーマーモデルを用いて,抽象的要約における長大な依存関係に対処する。
論文 参考訳(メタデータ) (2021-05-08T23:53:03Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。