論文の概要: NMIXX: Domain-Adapted Neural Embeddings for Cross-Lingual eXploration of Finance
- arxiv url: http://arxiv.org/abs/2507.09601v1
- Date: Sun, 13 Jul 2025 12:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.574403
- Title: NMIXX: Domain-Adapted Neural Embeddings for Cross-Lingual eXploration of Finance
- Title(参考訳): NMIXX: クロスリンガルEXploration of Financeのためのドメイン適応型ニューラルネットワーク
- Authors: Hanwool Lee, Sara Yu, Yewon Hwang, Jonghyun Choi, Heejae Ahn, Sungbum Jung, Youngjae Yu,
- Abstract要約: 汎用文埋め込みモデルは、しばしば専門的な財務意味論を捉えるのに苦労する。
NMIXXは18.8Kの高信頼三重項を微調整した言語間埋め込みモデルのスイートである。
KorFinSTSもリリースしています。これはニュース、開示、調査レポート、規制にまたがるベンチマークです。
- 参考スコア(独自算出の注目度): 24.697311579081983
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: General-purpose sentence embedding models often struggle to capture specialized financial semantics, especially in low-resource languages like Korean, due to domain-specific jargon, temporal meaning shifts, and misaligned bilingual vocabularies. To address these gaps, we introduce NMIXX (Neural eMbeddings for Cross-lingual eXploration of Finance), a suite of cross-lingual embedding models fine-tuned with 18.8K high-confidence triplets that pair in-domain paraphrases, hard negatives derived from a semantic-shift typology, and exact Korean-English translations. Concurrently, we release KorFinSTS, a 1,921-pair Korean financial STS benchmark spanning news, disclosures, research reports, and regulations, designed to expose nuances that general benchmarks miss. When evaluated against seven open-license baselines, NMIXX's multilingual bge-m3 variant achieves Spearman's rho gains of +0.10 on English FinSTS and +0.22 on KorFinSTS, outperforming its pre-adaptation checkpoint and surpassing other models by the largest margin, while revealing a modest trade-off in general STS performance. Our analysis further shows that models with richer Korean token coverage adapt more effectively, underscoring the importance of tokenizer design in low-resource, cross-lingual settings. By making both models and the benchmark publicly available, we provide the community with robust tools for domain-adapted, multilingual representation learning in finance.
- Abstract(参考訳): 汎用文埋め込みモデルは、特に韓国語のような低リソース言語において、ドメイン固有の用語、時間的意味の変化、二言語語彙の不一致により、特別な財務意味を捉えるのに苦労することが多い。
これらのギャップに対処するために、NMIXX(Neural eMbeddings for Cross-lingual eXploration of Finance)という、ドメイン内のパラフレーズをペアにした18.8Kの高信頼三重項を微調整したクロスランガル埋め込みモデルスイート、セマンティックシフトタイポロジーから派生したハードネガティブ、そして正確な韓国語翻訳を紹介する。
同時に、我々は、一般的なベンチマークが見逃すニュアンスを明らかにするように設計された、ニュース、開示、調査報告、規制にまたがる1,921対の韓国金融STSベンチマークであるKorFinSTSをリリースしました。
7つのオープンライセンスベースラインに対して評価すると、NMIXXの多言語bge-m3変種は、英語のFinSTSで+0.10、KorFinSTSで+0.22というスピアマンのローゲインを達成し、事前適応チェックポイントを上回り、他のモデルを最大のマージンで上回った。
分析の結果,韓国のトークンカバレッジが豊富なモデルはより効果的に適応し,低リソース・多言語環境におけるトークン化設計の重要性が強調された。
モデルとベンチマークの両方を公開することにより、ファイナンスにおけるドメイン適応型多言語表現学習のための堅牢なツールをコミュニティに提供する。
関連論文リスト
- Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - TWICE: What Advantages Can Low-Resource Domain-Specific Embedding Model Bring? -- A Case Study on Korea Financial Texts [0.8624680612413766]
FinMTEBのような既存のベンチマークは、主に高リソース言語向けに設計されている。
韓国金融ドメインの新しいベンチマークであるKorFinMTEBを紹介する。
実験結果から,FinMTEBの翻訳版ではモデルが頑健に動作する一方で,KorFinMTEB上での性能は微妙に重要な相違点を明らかにした。
論文 参考訳(メタデータ) (2025-02-10T23:49:39Z) - Registering Source Tokens to Target Language Spaces in Multilingual Neural Machine Translation [26.737542701290153]
我々は,小規模なMNMT特化モデルが大規模言語モデル(LLM)と競合することを可能にする新しい手法である登録を導入する。
大規模ベンチマークであるEC-40の実験から,本手法がMNMTの最先端技術に進展することを示す。
MNMTのさらなる研究と開発を促進するために、当社のモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2025-01-06T12:42:54Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Towards Multi-Sense Cross-Lingual Alignment of Contextual Embeddings [41.148892848434585]
本稿では,バイリンガル辞書からのクロスリンガル信号のみを活用して,文脈埋め込みを感覚レベルで整列する新しい枠組みを提案する。
我々はまず,単語感覚を明示的にモデル化するために,新しい感覚認識型クロスエントロピー損失を提案する。
次に,言語間モデル事前学習のための感覚認識型クロスエントロピー損失と,複数の言語対に対する事前訓練型クロス言語モデルの上に,感覚アライメントの目的を提案する。
論文 参考訳(メタデータ) (2021-03-11T04:55:35Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。