論文の概要: Domain Adaptation for Japanese Sentence Embeddings with Contrastive Learning based on Synthetic Sentence Generation
- arxiv url: http://arxiv.org/abs/2503.09094v1
- Date: Wed, 12 Mar 2025 06:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:26.435187
- Title: Domain Adaptation for Japanese Sentence Embeddings with Contrastive Learning based on Synthetic Sentence Generation
- Title(参考訳): 合成文生成に基づくコントラスト学習による日本語文埋め込みのためのドメイン適応
- Authors: Zihao Chen, Hisashi Handa, Miho Ohsaki, Kimiaki Shirahama,
- Abstract要約: 本稿では,SDJCについて紹介する。
英語から機械翻訳されたデータセットと既存のデータセットを組み合わせることで、ベンチマークデータセットを構築する。
実験により,2つのドメイン固有の下流タスクに対するSDJCの有効性と,構築したデータセットの有用性が検証された。
- 参考スコア(独自算出の注目度): 2.6505619784178047
- License:
- Abstract: Several backbone models pre-trained on general domain datasets can encode a sentence into a widely useful embedding. Such sentence embeddings can be further enhanced by domain adaptation that adapts a backbone model to a specific domain. However, domain adaptation for low-resource languages like Japanese is often difficult due to the scarcity of large-scale labeled datasets. To overcome this, this paper introduces SDJC (Self-supervised Domain adaptation for Japanese sentence embeddings with Contrastive learning) that utilizes a data generator to generate sentences, which have the same syntactic structure to a sentence in an unlabeled specific domain corpus but convey different semantic meanings. Generated sentences are then used to boost contrastive learning that adapts a backbone model to accurately discriminate sentences in the specific domain. In addition, the components of SDJC like a backbone model and a method to adapt it need to be carefully selected, but no benchmark dataset is available for Japanese. Thus, a comprehensive Japanese STS (Semantic Textual Similarity) benchmark dataset is constructed by combining datasets machine-translated from English with existing datasets. The experimental results validates the effectiveness of SDJC on two domain-specific downstream tasks as well as the usefulness of the constructed dataset. Datasets, codes and backbone models adapted by SDJC are available on our github repository https://github.com/ccilab-doshisha/SDJC.
- Abstract(参考訳): 一般的なドメインデータセットで事前トレーニングされたいくつかのバックボーンモデルは、文を広く有用な埋め込みにエンコードすることができる。
このような文の埋め込みは、特定のドメインにバックボーンモデルを適用するドメイン適応によってさらに強化することができる。
しかし、大規模ラベル付きデータセットが不足しているため、日本語のような低リソース言語に対するドメイン適応は困難であることが多い。
そこで本稿では,データジェネレータを用いてテキストを生成するSDJC(Self-supervised Domain adaptation for Japanese sentence embeddeds with Contrastive Learning)を提案する。
生成された文は、特定のドメイン内の文を正確に識別するためにバックボーンモデルを適用するコントラスト学習を促進するために使用される。
さらに、SDJCのコンポーネントであるバックボーンモデルや、それを適応するためのメソッドは慎重に選択する必要があるが、日本語のベンチマークデータセットは利用できない。
このように、英語から機械翻訳されたデータセットと既存のデータセットを組み合わせることで、包括的な日本語STS(Semantic Textual similarity)ベンチマークデータセットを構築した。
実験により,2つのドメイン固有の下流タスクに対するSDJCの有効性と,構築したデータセットの有用性が検証された。
SDJCで適応したデータセット、コード、バックボーンモデルは、我々のgithubリポジトリhttps://github.com/ccilab-doshisha/SDJCで利用可能です。
関連論文リスト
- BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English [8.823927892310238]
BESSTIEは、オーストラリア(en-AU)、インド(en-IN)、イギリス(en-UK)の3種類の英語に対する感情と皮肉の分類のベンチマークである。
位置に基づくフィルタリングとトピックに基づくフィルタリングという2つの手法を用いて,これらの言語品種のデータセットを収集する。
言語変異のネイティブ話者は、感情ラベルと皮肉ラベルでデータセットを手動で注釈付けする。
論文 参考訳(メタデータ) (2024-12-06T02:34:40Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its
Applications [4.482886054198201]
JCSEは、文を生成し、それらをターゲットドメインで利用可能な文で合成することで、トレーニングデータを生成する。
次に、日本語モデルを対象領域の特定のタスクに適応させるために、対照的な学習に使用される矛盾した文対を生成する。
論文 参考訳(メタデータ) (2023-01-19T17:41:46Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Cross-Lingual Named Entity Recognition Using Parallel Corpus: A New
Approach Using XLM-RoBERTa Alignment [5.747195707763152]
我々は、XLM-RoBERTa上にエンティティアライメントモデルを構築し、並列データの英語部分で検出されたエンティティを対象言語文に投影する。
翻訳方法とは異なり、このアプローチはターゲット言語のオリジナルコーパスの自然な流派性とニュアンスから利益を得ます。
提案手法をベンチマークデータセット上で4つのターゲット言語に対して評価し,最新のSOTAモデルと比較してF1スコアを得た。
論文 参考訳(メタデータ) (2021-01-26T22:19:52Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。