論文の概要: Towards Flexible Multi-modal Document Models
- arxiv url: http://arxiv.org/abs/2303.18248v1
- Date: Fri, 31 Mar 2023 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:01:19.393723
- Title: Towards Flexible Multi-modal Document Models
- Title(参考訳): 柔軟なマルチモーダル文書モデルに向けて
- Authors: Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota
Yamaguchi
- Abstract要約: 本研究では,様々な設計課題を共同で解決できる包括的モデルの構築を試みる。
われわれのモデルはFlexDMで表され、ベクトルグラフィック文書をマルチモーダル要素の調和した集合として扱う。
実験の結果、我々の単一のFlexDMが様々な設計タスクをうまく解決できることがわかった。
- 参考スコア(独自算出の注目度): 27.955214767628107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creative workflows for generating graphical documents involve complex
inter-related tasks, such as aligning elements, choosing appropriate fonts, or
employing aesthetically harmonious colors. In this work, we attempt at building
a holistic model that can jointly solve many different design tasks. Our model,
which we denote by FlexDM, treats vector graphic documents as a set of
multi-modal elements, and learns to predict masked fields such as element type,
position, styling attributes, image, or text, using a unified architecture.
Through the use of explicit multi-task learning and in-domain pre-training, our
model can better capture the multi-modal relationships among the different
document fields. Experimental results corroborate that our single FlexDM is
able to successfully solve a multitude of different design tasks, while
achieving performance that is competitive with task-specific and costly
baselines.
- Abstract(参考訳): グラフィカル文書を生成するための創造的なワークフローには、要素の整列、適切なフォントの選択、美的な調和の取れた色の使用など、複雑な相互関連タスクが含まれる。
本研究では,様々な設計課題を協調的に解決できる総合モデルの構築を試みる。
flexdmで表現したモデルでは、ベクトル図形文書を多様要素の集合として扱い、要素タイプ、位置、スタイル属性、画像、テキストといったマスクされたフィールドを統一アーキテクチャを用いて予測することを学ぶ。
明示的なマルチタスク学習とドメイン内事前学習を用いることで、異なる文書フィールド間のマルチモーダル関係をよりよく捉えることができる。
実験結果は、我々の単一のFlexDMが、タスク固有のコストのかかるベースラインと競合するパフォーマンスを達成しながら、さまざまな設計タスクをうまく解決できることを裏付けます。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Mixed-Query Transformer: A Unified Image Segmentation Architecture [57.32212654642384]
既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。
マルチタスクとマルチデータセット画像セグメンテーションを一組の重みで統合したアーキテクチャであるMixed-Query Transformer (MQ-Former)を紹介した。
論文 参考訳(メタデータ) (2024-04-06T01:54:17Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - 3MVRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding [13.19218501758693]
このモデルは、トークンとエンティティ表現の微妙な相関を容易にすることで、きめ細かいレベルと粗いレベルの両方からの洞察を活用するように設計されている。
多様な多教師の知識蒸留プロセスを改善するために,新たな粒度間・粒度間損失関数を導入する。
公開形式の文書理解データセットを包括的に評価することにより,提案モデルは既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-02-28T01:56:00Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。