論文の概要: JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its
Applications
- arxiv url: http://arxiv.org/abs/2301.08193v1
- Date: Thu, 19 Jan 2023 17:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:21:02.476649
- Title: JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its
Applications
- Title(参考訳): JCSE:日本語文埋め込みのコントラスト学習とその応用
- Authors: Zihao Chen, Hisashi Handa, Kimiaki Shirahama
- Abstract要約: JCSEは、文を生成し、それらをターゲットドメインで利用可能な文で合成することで、トレーニングデータを生成する。
次に、日本語モデルを対象領域の特定のタスクに適応させるために、対照的な学習に使用される矛盾した文対を生成する。
- 参考スコア(独自算出の注目度): 4.482886054198201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning is widely used for sentence representation learning.
Despite this prevalence, most studies have focused exclusively on English and
few concern domain adaptation for domain-specific downstream tasks, especially
for low-resource languages like Japanese, which are characterized by
insufficient target domain data and the lack of a proper training strategy. To
overcome this, we propose a novel Japanese sentence representation framework,
JCSE (derived from ``Contrastive learning of Sentence Embeddings for
Japanese''), that creates training data by generating sentences and
synthesizing them with sentences available in a target domain. Specifically, a
pre-trained data generator is finetuned to a target domain using our collected
corpus. It is then used to generate contradictory sentence pairs that are used
in contrastive learning for adapting a Japanese language model to a specific
task in the target domain.
Another problem of Japanese sentence representation learning is the
difficulty of evaluating existing embedding methods due to the lack of
benchmark datasets. Thus, we establish a comprehensive Japanese Semantic
Textual Similarity (STS) benchmark on which various embedding models are
evaluated. Based on this benchmark result, multiple embedding methods are
chosen and compared with JCSE on two domain-specific tasks, STS in a clinical
domain and information retrieval in an educational domain. The results show
that JCSE achieves significant performance improvement surpassing direct
transfer and other training strategies. This empirically demonstrates JCSE's
effectiveness and practicability for downstream tasks of a low-resource
language.
- Abstract(参考訳): コントラスト学習は文表現学習に広く用いられている。
この傾向にもかかわらず、ほとんどの研究は英語のみに焦点をあてており、ドメイン固有の下流タスク、特にターゲットドメインデータ不足と適切なトレーニング戦略の欠如を特徴とする日本語のような低リソース言語に対するドメイン適応にはほとんど関心がない。
そこで,本稿では,日本語文表現の枠組みであるjcse(「日本語文埋め込みの連続学習」から派生した)を提案し,学習データを作成し,対象領域で利用可能な文と合成する。
具体的には、収集したコーパスを用いて、トレーニング済みのデータジェネレータをターゲットドメインに微調整する。
次に、日本語モデルを対象領域の特定のタスクに適応させるために、対照的な学習に使用される矛盾した文対を生成する。
日本語文表現学習のもう一つの問題は、ベンチマークデータセットの欠如による既存の埋め込み手法の評価が難しいことである。
そこで我々は,様々な埋め込みモデルを評価するための総合的な日本語意味テキスト類似度(STS)ベンチマークを構築した。
このベンチマーク結果に基づき、臨床領域stsと教育領域情報検索の2つのドメイン固有のタスクにおいて、複数の埋め込み手法を選択し、jcseと比較する。
その結果,jcseはダイレクトトランスファーや他のトレーニング戦略を上回って,大幅な性能向上を達成した。
これは、低リソース言語の下流タスクに対するJCSEの有効性と実践性を実証的に示す。
関連論文リスト
- Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Linguistically-driven Multi-task Pre-training for Low-resource Neural
Machine Translation [31.225252462128626]
本稿では,日本語を母語とする言語対に対する日本語固有のシーケンス to sequence (JASS) と,英語を含む言語対に対する英語固有のシーケンス to sequence (ENSS) を提案する。
JASSは文節(ぶんせつ)として知られる日本語単位のマスキングとリオーダーに重点を置いており、ENSSは句構造マスキングとリオーダータスクに基づいて提案されている。
論文 参考訳(メタデータ) (2022-01-20T09:10:08Z) - AStitchInLanguageModels: Dataset and Methods for the Exploration of
Idiomaticity in Pre-Trained Language Models [7.386862225828819]
本研究は、MWEを含む自然発生文のデータセットを、細かな意味の集合に手作業で分類する。
我々は,このデータセットを,idiomを含む文の表現生成における言語モデルの有効性と,idiomを用いた言語モデルの有効性を検証するために,2つのタスクで使用する。
論文 参考訳(メタデータ) (2021-09-09T16:53:17Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。