論文の概要: MAP-Elites with Transverse Assessment for Multimodal Problems in
Creative Domains
- arxiv url: http://arxiv.org/abs/2403.07182v1
- Date: Mon, 11 Mar 2024 21:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:33:19.873908
- Title: MAP-Elites with Transverse Assessment for Multimodal Problems in
Creative Domains
- Title(参考訳): 創造領域におけるマルチモーダル問題に対する逆アセスメントを用いたMAP-Elites
- Authors: Marvin Zammit, Antonios Liapis, Georgios N. Yannakakis
- Abstract要約: 品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しい手法を提案する。
我々の貢献は、MAP-Elitesアルゴリズム、MAP-Elites with Transverse Assessment (MEliTA)のバリエーションである。
MeliTAは、アーティファクトのモダリティを分離し、エリート間のクロスポーリングを促進する。
- 参考スコア(独自算出の注目度): 2.7869568828212175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in language-based generative models have paved the way
for the orchestration of multiple generators of different artefact types (text,
image, audio, etc.) into one system. Presently, many open-source pre-trained
models combine text with other modalities, thus enabling shared vector
embeddings to be compared across different generators. Within this context we
propose a novel approach to handle multimodal creative tasks using Quality
Diversity evolution. Our contribution is a variation of the MAP-Elites
algorithm, MAP-Elites with Transverse Assessment (MEliTA), which is tailored
for multimodal creative tasks and leverages deep learned models that assess
coherence across modalities. MEliTA decouples the artefacts' modalities and
promotes cross-pollination between elites. As a test bed for this algorithm, we
generate text descriptions and cover images for a hypothetical video game and
assign each artefact a unique modality-specific behavioural characteristic.
Results indicate that MEliTA can improve text-to-image mappings within the
solution space, compared to a baseline MAP-Elites algorithm that strictly
treats each image-text pair as one solution. Our approach represents a
significant step forward in multimodal bottom-up orchestration and lays the
groundwork for more complex systems coordinating multimodal creative agents in
the future.
- Abstract(参考訳): 言語に基づく生成モデルの最近の進歩は、異なるアーティファクトタイプ(テキスト、画像、オーディオなど)の複数のジェネレータを1つのシステムにまとめる道を開いた。
現在、多くのオープンソース事前学習モデルは、テキストと他のモダリティを組み合わせることで、異なるジェネレータ間で共有ベクトル埋め込みを比較することができる。
この文脈内では、品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しいアプローチを提案する。
我々の貢献はMAP-Elitesアルゴリズム(MAP-Elites with Transverse Assessment (MEliTA))のバリエーションであり、マルチモーダルな創造タスクに適合し、モダリティ間のコヒーレンスを評価する深層学習モデルを活用する。
メリタはアーティファクトのモダリティを分離し、エリート間のクロスポリメーションを促進する。
本アルゴリズムのテストベッドとして,仮想ビデオゲーム用のテキスト記述とカバー画像を生成し,各アーティファクトにユニークなモダリティ特有の行動特性を割り当てる。
その結果、melitaは、各画像とテキストのペアを1つのソリューションとして厳格に扱うベースラインmap-elitesアルゴリズムと比較して、ソリューション空間内のテキストと画像のマッピングを改善できることが示されている。
我々のアプローチは、マルチモーダルなボトムアップオーケストレーションにおける重要な一歩であり、将来多モーダルなクリエイティブエージェントを協調するより複雑なシステムの基盤となる。
関連論文リスト
- Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Variational Multi-Modal Hypergraph Attention Network for Multi-Modal Relation Extraction [16.475718456640784]
マルチモーダル関係抽出のための変分マルチモーダルハイパーグラフアテンションネットワーク(VM-HAN)を提案する。
VM-HANは、マルチモーダル関係抽出タスクにおける最先端のパフォーマンスを達成し、精度と効率の点で既存の手法より優れている。
論文 参考訳(メタデータ) (2024-04-18T08:56:47Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。