論文の概要: Multilingual and Multimodal Topic Modelling with Pretrained Embeddings
- arxiv url: http://arxiv.org/abs/2211.08057v1
- Date: Tue, 15 Nov 2022 11:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:15:33.112098
- Title: Multilingual and Multimodal Topic Modelling with Pretrained Embeddings
- Title(参考訳): プレトレーニング埋め込みを用いた多言語・多モーダルトピックモデリング
- Authors: Elaine Zosa and Lidia Pivovarova
- Abstract要約: M3L-Contrastは、M3L(multimodal multilingual)ニューラルトピックモデルである。
本モデルでは,テキストとイメージを共同でトレーニングし,事前学習した文書と画像の埋め込みを利用する。
- 参考スコア(独自算出の注目度): 3.0264210068684725
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents M3L-Contrast -- a novel multimodal multilingual (M3L)
neural topic model for comparable data that maps texts from multiple languages
and images into a shared topic space. Our model is trained jointly on texts and
images and takes advantage of pretrained document and image embeddings to
abstract the complexities between different languages and modalities. As a
multilingual topic model, it produces aligned language-specific topics and as
multimodal model, it infers textual representations of semantic concepts in
images. We demonstrate that our model is competitive with a zero-shot topic
model in predicting topic distributions for comparable multilingual data and
significantly outperforms a zero-shot model in predicting topic distributions
for comparable texts and images. We also show that our model performs almost as
well on unaligned embeddings as it does on aligned embeddings.
- Abstract(参考訳): 本稿では,マルチモーダル多言語(M3L)ニューラルトピックモデルであるM3L-Contrastについて述べる。
本モデルはテキストと画像に共同で学習し,事前学習した文書と画像の埋め込みを利用して,異なる言語とモダリティの複雑さを抽象化する。
多言語トピックモデルとして、アライメント言語固有のトピックを生成し、マルチモーダルモデルとして、画像における意味概念のテキスト表現を推論する。
本モデルは,比較対象の多言語データに対する話題分布の予測においてゼロショットのトピックモデルと競合し,比較対象のテキストや画像に対する話題分布の予測においてゼロショットのモデルを著しく上回っていることを示す。
また、我々のモデルは、アライメント埋め込みよりも非アライメント埋め込みでほぼ同等に機能することを示す。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Cross-lingual Contextualized Topic Models with Zero-shot Learning [32.05840149368981]
本稿では,ゼロショット言語間トピックモデルを提案する。
1つの言語でトピックを学習し、異なる言語で見えないドキュメントを予測します。
異なる言語で同じ文書のトピック予測の質を評価する。
論文 参考訳(メタデータ) (2020-04-16T16:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。