論文の概要: Multi-Agent Multimodal Models for Multicultural Text to Image Generation
- arxiv url: http://arxiv.org/abs/2502.15972v1
- Date: Fri, 21 Feb 2025 22:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:48.705490
- Title: Multi-Agent Multimodal Models for Multicultural Text to Image Generation
- Title(参考訳): 多文化テキストと画像生成のためのマルチエージェントマルチモーダルモデル
- Authors: Parth Bhalerao, Mounika Yalamarty, Brian Trinh, Oana Ignat,
- Abstract要約: 多文化画像生成の新しいタスクのためのマルチエージェントインタラクション設定において,Large Language Models (LLMs) の性能を評価する。
5つの国、3つの年齢グループ、2つの性別、25の歴史的ランドマーク、5つの言語にまたがる9000の多文化画像のデータセットを提供する。
マルチエージェントインタラクションは、複数の評価指標で単純な非エージェントモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.934817254755008
- License:
- Abstract: Large Language Models (LLMs) demonstrate impressive performance across various multimodal tasks. However, their effectiveness in cross-cultural contexts remains limited due to the predominantly Western-centric nature of existing data and models. Meanwhile, multi-agent models have shown strong capabilities in solving complex tasks. In this paper, we evaluate the performance of LLMs in a multi-agent interaction setting for the novel task of multicultural image generation. Our key contributions are: (1) We introduce MosAIG, a Multi-Agent framework that enhances multicultural Image Generation by leveraging LLMs with distinct cultural personas; (2) We provide a dataset of 9,000 multicultural images spanning five countries, three age groups, two genders, 25 historical landmarks, and five languages; and (3) We demonstrate that multi-agent interactions outperform simple, no-agent models across multiple evaluation metrics, offering valuable insights for future research. Our dataset and models are available at https://github.com/OanaIgnat/MosAIG.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なマルチモーダルタスクにまたがる素晴らしいパフォーマンスを示す。
しかしながら、それらの文化的な文脈における有効性は、既存のデータやモデルの主な西洋中心の性質のために制限されている。
一方、マルチエージェントモデルは複雑なタスクを解く上で強力な能力を示している。
本稿では,多文化画像生成の新しい課題に対するマルチエージェントインタラクション設定におけるLCMの性能評価を行う。
主な貢献は,(1) LLMを異なる文化的ペルソナで活用して多文化画像生成を促進するマルチエージェント・フレームワークであるMosAIGの導入,(2) 5か国,3つの年齢グループ,25の歴史的ランドマーク,5つの言語にまたがる9000の多文化画像データセットの提供,(3)マルチエージェント・インタラクションが複数の評価指標で単純で非エージェント・モデルを上回ることを実証し,今後の研究に有用な洞察を提供する。
データセットとモデルはhttps://github.com/OanaIgnat/MosAIG.comで公開されています。
関連論文リスト
- mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models [55.25892137362187]
MLLMのためのMMGiCアノテーション(Multimodal Multi-Grained Concept Annotation)を特徴とする新しいデータセットを提案する。
分析の結果,構造化テンプレートと汎用MLLMフレームワークの下で,多義的な概念アノテーションが相互に統合され,補完されることが明らかとなった。
さらに,12のマルチモーダル理解および生成ベンチマークにおいて,MMGiCと画像キャプチャデータとの公正な比較と効果的な協調関係を検証し,我々の仮説を検証した。
論文 参考訳(メタデータ) (2024-12-08T13:45:44Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning [25.956176241542597]
異なる文化的ペルソナを持つLMMを用いて、異文化間画像キャプションを強化する枠組みであるMosAICを紹介する。
我々は、中国、インド、ルーマニアの画像に対して、文化に富んだ画像キャプションのデータセットを英語で提供します。
マルチエージェントインタラクションは、異なるメトリクス間でシングルエージェントモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-18T17:37:10Z) - M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。
ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。
より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文 参考訳(メタデータ) (2024-07-04T09:55:04Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Large Scale Multi-Lingual Multi-Modal Summarization Dataset [26.92121230628835]
現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
論文 参考訳(メタデータ) (2023-02-13T18:00:23Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。