論文の概要: mStyleDistance: Multilingual Style Embeddings and their Evaluation
- arxiv url: http://arxiv.org/abs/2502.15168v1
- Date: Fri, 21 Feb 2025 03:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:55.183618
- Title: mStyleDistance: Multilingual Style Embeddings and their Evaluation
- Title(参考訳): mStyleDistance:多言語スタイルの埋め込みとその評価
- Authors: Justin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch,
- Abstract要約: 合成データとコントラスト学習を用いて学習したスタイル埋め込みモデルであるMultilingual StyleDistanceを紹介する。
9言語からのデータに基づいてモデルをトレーニングし、多言語STEL-or-Contentベンチマークを作成する。
以上の結果から,mStyleDistanceの埋め込みは,これらの多言語スタイルのベンチマークにおいて既存のモデルよりも優れており,見当たらない機能や言語に対してよく一般化されていることがわかった。
- 参考スコア(独自算出の注目度): 45.24752717803745
- License:
- Abstract: Style embeddings are useful for stylistic analysis and style transfer; however, only English style embeddings have been made available. We introduce Multilingual StyleDistance (mStyleDistance), a multilingual style embedding model trained using synthetic data and contrastive learning. We train the model on data from nine languages and create a multilingual STEL-or-Content benchmark (Wegmann et al., 2022) that serves to assess the embeddings' quality. We also employ our embeddings in an authorship verification task involving different languages. Our results show that mStyleDistance embeddings outperform existing models on these multilingual style benchmarks and generalize well to unseen features and languages. We make our model publicly available at https://huggingface.co/StyleDistance/mstyledistance .
- Abstract(参考訳): スタイル埋め込みはスタイリスティックな分析やスタイル転送に有用であるが、英語のスタイル埋め込みのみが利用可能になっている。
合成データとコントラスト学習を用いて学習した多言語スタイル埋め込みモデルであるMultilingual StyleDistance(mStyleDistance)を紹介する。
9言語からのデータに基づいてモデルをトレーニングし、埋め込みの品質を評価するための多言語STEL-or-Contentベンチマーク(Wegmann et al , 2022)を作成します。
また、異なる言語を含むオーサシップ検証タスクに埋め込みも採用しています。
以上の結果から,mStyleDistanceの埋め込みは,これらの多言語スタイルのベンチマークにおいて既存のモデルよりも優れており,見当たらない機能や言語に対してよく一般化されていることがわかった。
私たちのモデルはhttps://huggingface.co/StyleDistance/mstyledistanceで公開しています。
関連論文リスト
- StAyaL | Multilingual Style Transfer [0.0]
100行のテキストのみを活用することで、個人独自のスタイルを高次元埋め込みとして捉えることができることを示す。
この方法論は、話者のスタイルを言語間で転送することで、言語障壁を壊します。
提案手法は,それぞれ74.9%,0.75の試験精度とF1スコアを有するトピックに依存しない。
論文 参考訳(メタデータ) (2025-01-20T18:13:18Z) - StyleDistance: Stronger Content-Independent Style Embeddings with Synthetic Parallel Examples [48.44036251656947]
スタイル表現は、内容に関係なく、類似した書体スタイルのテキストを密に埋め込み、異なる書体スタイルのテキストを遠くに埋め込むことを目的としている。
より強力なコンテンツに依存しないスタイル埋め込みをトレーニングするための新しいアプローチであるStyleDistanceを紹介する。
論文 参考訳(メタデータ) (2024-10-16T17:25:25Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multi-Style Transfer with Discriminative Feedback on Disjoint Corpus [9.793194158416854]
スタイル転送は、非並列コーパスを用いた自然言語生成において広く研究されている。
既存のアプローチの共通の欠点は、すべてのスタイリスティックな次元にわたるジョイントアノテーションの前提条件である。
入力テキストの内容を保存しながら、複数のスタイルのスタイルを制御できるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-10-22T10:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。