論文の概要: The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning
- arxiv url: http://arxiv.org/abs/2411.11758v1
- Date: Mon, 18 Nov 2024 17:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:21.939779
- Title: The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning
- Title(参考訳): 多くの人々の力:文化イメージキャプションのためのマルチエージェントマルチモーダルモデル
- Authors: Longju Bai, Angana Borah, Oana Ignat, Rada Mihalcea,
- Abstract要約: 異なる文化的ペルソナを持つLMMを用いて、異文化間画像キャプションを強化する枠組みであるMosAICを紹介する。
我々は、中国、インド、ルーマニアの画像に対して、文化に富んだ画像キャプションのデータセットを英語で提供します。
マルチエージェントインタラクションは、異なるメトリクス間でシングルエージェントモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 25.956176241542597
- License:
- Abstract: Large Multimodal Models (LMMs) exhibit impressive performance across various multimodal tasks. However, their effectiveness in cross-cultural contexts remains limited due to the predominantly Western-centric nature of most data and models. Conversely, multi-agent models have shown significant capability in solving complex tasks. Our study evaluates the collective performance of LMMs in a multi-agent interaction setting for the novel task of cultural image captioning. Our contributions are as follows: (1) We introduce MosAIC, a Multi-Agent framework to enhance cross-cultural Image Captioning using LMMs with distinct cultural personas; (2) We provide a dataset of culturally enriched image captions in English for images from China, India, and Romania across three datasets: GeoDE, GD-VCR, CVQA; (3) We propose a culture-adaptable metric for evaluating cultural information within image captions; and (4) We show that the multi-agent interaction outperforms single-agent models across different metrics, and offer valuable insights for future research. Our dataset and models can be accessed at https://github.com/MichiganNLP/MosAIC.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、様々なマルチモーダルタスクにまたがって優れた性能を示す。
しかしながら、多くのデータやモデルの主な西洋中心の性質のため、異文化間の文脈におけるそれらの効果は限定的である。
逆に、マルチエージェントモデルは複雑なタスクを解く上で重要な能力を示している。
文化イメージキャプションの新たな課題に対するマルチエージェントインタラクション設定におけるLMMの集合的性能について検討した。
我々は,(1) 異なる文化的人格を持つLMMを用いた多文化的イメージキャプションを強化するマルチエージェントフレームワークであるMosAICを紹介する,(2) 中国,インド,ルーマニアの3つのデータセット(GeoDE,GD-VCR,CVQA),(3) 画像キャプション内の文化情報を評価するための文化適応尺度を提案する,(4) マルチエージェントインタラクションは,異なるメトリクスで単一エージェントモデルより優れており,今後の研究に有用な洞察を提供する,という,多文化的イメージキャプションの多文化化の枠組みを紹介する。
私たちのデータセットとモデルはhttps://github.com/MichiganNLP/MosAICでアクセスできます。
関連論文リスト
- MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Retrieval-Augmented Multimodal Language Modeling [176.9150885247416]
DALL-EやCM3のようなマルチモーダルモデルは、テキスト・ツー・イメージと画像・ツー・テキスト生成において顕著な進歩を遂げている。
ベースマルチモーダルモデルでは,検索者が外部メモリから取得した関連テキストや画像を参照することができる。
我々の生成したモデルであるRetrieval-Augmented CM3は、テキストと画像の両方を検索して生成できる最初のマルチモーダルモデルである。
論文 参考訳(メタデータ) (2022-11-22T20:26:44Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。