論文の概要: ViCLSR: A Supervised Contrastive Learning Framework with Natural Language Inference for Natural Language Understanding Tasks
- arxiv url: http://arxiv.org/abs/2603.21084v1
- Date: Sun, 22 Mar 2026 06:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.230011
- Title: ViCLSR: A Supervised Contrastive Learning Framework with Natural Language Inference for Natural Language Understanding Tasks
- Title(参考訳): ViCLSR - 自然言語理解タスクのための自然言語推論を用いた教師付きコントラスト学習フレームワーク
- Authors: Tin Van Huynh, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen,
- Abstract要約: ViR(Vietnamese Contrastive Learning for Sentence Representations)は、ベトナム語における文の埋め込みを最適化するために設計された、教師付きコントラスト学習フレームワークである。
実験の結果,5つのベンチマークNLUデータセット上で,VRは強力なモノリンガル事前学習モデルであるPhoBERTよりも優れていた。
- 参考スコア(独自算出の注目度): 9.232020878700967
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-quality text representations are crucial for natural language understanding (NLU), but low-resource languages like Vietnamese face challenges due to limited annotated data. While pre-trained models like PhoBERT and CafeBERT perform well, their effectiveness is constrained by data scarcity. Contrastive learning (CL) has recently emerged as a promising approach for improving sentence representations, enabling models to effectively distinguish between semantically similar and dissimilar sentences. We propose ViCLSR (Vietnamese Contrastive Learning for Sentence Representations), a novel supervised contrastive learning framework specifically designed to optimize sentence embeddings for Vietnamese, leveraging existing natural language inference (NLI) datasets. Additionally, we propose a process to adapt existing Vietnamese datasets for supervised learning, ensuring compatibility with CL methods. Our experiments demonstrate that ViCLSR significantly outperforms the powerful monolingual pre-trained model PhoBERT on five benchmark NLU datasets such as ViNLI (+6.97% F1), ViWikiFC (+4.97% F1), ViFactCheck (+9.02% F1), UIT-ViCTSD (+5.36% F1), and ViMMRC2.0 (+4.33% Accuracy). ViCLSR shows that supervised contrastive learning can effectively address resource limitations in Vietnamese NLU tasks and improve sentence representation learning for low-resource languages. Furthermore, we conduct an in-depth analysis of the experimental results to uncover the factors contributing to the superior performance of contrastive learning models. ViCLSR is released for research purposes in advancing natural language processing tasks.
- Abstract(参考訳): 高品質なテキスト表現は自然言語理解(NLU)に欠かせないが、ベトナム語のような低リソースの言語は、限られた注釈付きデータのために困難に直面している。
PhoBERTやCafeBERTのような事前訓練されたモデルはよく機能するが、その有効性はデータの不足によって制約される。
コントラスト学習(CL)は、最近、文表現を改善するための有望なアプローチとして現れ、モデルが意味論的に類似した文と異種文を効果的に区別できるようにする。
ViCLSR(Vietnamese Contrastive Learning for Sentence Representations)は,ベトナム語に対する文の埋め込みを最適化し,既存の自然言語推論(NLI)データセットを活用するために設計された,教師付きコントラスト学習フレームワークである。
さらに,既存のベトナムのデータセットを教師付き学習に適用し,CL手法との互換性を確保するプロセスを提案する。
実験の結果, ViCLSRは, ViNLI (+6.97% F1), ViWikiFC (+4.97% F1), ViFactCheck (+9.02% F1), UIT-ViCTSD (+5.36% F1), ViMMRC2.0 (+4.33% Accuracy) の5つのベンチマークNLUデータセットにおいて,強力なモノリンガル事前学習モデルであるPhoBERTよりも優れていた。
ViCLSRはベトナムのNLUタスクにおいて、教師付きコントラスト学習が資源制限に効果的に対応できることを示し、低リソース言語における文表現学習を改善する。
さらに,比較学習モデルの優れた性能に寄与する要因を明らかにするために,実験結果の詳細な分析を行う。
ViCLSRは、自然言語処理タスクの進歩の研究目的のためにリリースされた。
関連論文リスト
- Transformer-Based Contextualized Language Models Joint with Neural Networks for Natural Language Inference in Vietnamese [1.7457686843484872]
文脈型言語モデル(CLM)とニューラルネットワークの様々な組み合わせを用いて実験を行う。
CLMとニューラルネットワークのジョイントアプローチはシンプルだが,高品質な性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-20T15:46:48Z) - A New Benchmark Dataset and Mixture-of-Experts Language Models for Adversarial Natural Language Inference in Vietnamese [9.232020878700967]
既存のベトナムの自然言語推論データセットは、敵の複雑さを欠いている。
厳密な検証を施した対向的人間と機械のループアプローチを用いてViANLIを構築する。
ViANLIは1万以上の前提仮説のペアで構成され、最先端のモデルに挑戦する。
論文 参考訳(メタデータ) (2024-06-25T16:58:19Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。