論文の概要: ViConBERT: Context-Gloss Aligned Vietnamese Word Embedding for Polysemous and Sense-Aware Representations
- arxiv url: http://arxiv.org/abs/2511.12249v1
- Date: Sat, 15 Nov 2025 15:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.701421
- Title: ViConBERT: Context-Gloss Aligned Vietnamese Word Embedding for Polysemous and Sense-Aware Representations
- Title(参考訳): ViConBERT:多文・感覚認識表現のためのベトナム語埋め込み
- Authors: Khang T. Huynh, Dung H. Nguyen, Binh T. Nguyen,
- Abstract要約: ViConBERTはベトナムの文脈化埋め込みを学習するための新しいフレームワークである。
ViConBERTは、コントラスト学習(SimCLR)とグロスベースの蒸留を統合して、単語の意味をよりよく捉えている。
またベトナムにおける意味理解を評価するための,最初の大規模合成データセットであるViConWSDについても紹介する。
- 参考スコア(独自算出の注目度): 2.5084857536903082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in contextualized word embeddings have greatly improved semantic tasks such as Word Sense Disambiguation (WSD) and contextual similarity, but most progress has been limited to high-resource languages like English. Vietnamese, in contrast, still lacks robust models and evaluation resources for fine-grained semantic understanding. In this paper, we present ViConBERT, a novel framework for learning Vietnamese contextualized embeddings that integrates contrastive learning (SimCLR) and gloss-based distillation to better capture word meaning. We also introduce ViConWSD, the first large-scale synthetic dataset for evaluating semantic understanding in Vietnamese, covering both WSD and contextual similarity. Experimental results show that ViConBERT outperforms strong baselines on WSD (F1 = 0.87) and achieves competitive performance on ViCon (AP = 0.88) and ViSim-400 (Spearman's rho = 0.60), demonstrating its effectiveness in modeling both discrete senses and graded semantic relations. Our code, models, and data are available at https://github.com/tkhangg0910/ViConBERT
- Abstract(参考訳): 文脈型単語埋め込みの最近の進歩は、Word Sense Disambiguation (WSD) や文脈的類似性などの意味的タスクを大幅に改善しているが、ほとんどの進歩は英語のような高リソース言語に限られている。
対照的にベトナムには、きめ細かい意味理解のための堅牢なモデルと評価資源がまだ欠けている。
本稿では,ベトナム語の文脈的埋め込みを学習するための新しいフレームワークであるViConBERTについて述べる。
また、ベトナムにおける意味的理解を評価するための最初の大規模合成データセットViConWSDを導入し、WSDと文脈的類似性の両方をカバーした。
実験結果から,ViConBERTはWSD(F1=0.87)とViCon(AP=0.88)とViSim-400(Spearmanのrho=0.60)の競争性能に優れており,離散感と等級関係の両方をモデル化する上での有効性が示された。
私たちのコード、モデル、データはhttps://github.com/tkhangg0910/ViConBERTで利用可能です。
関連論文リスト
- A study of Vietnamese readability assessing through semantic and statistical features [0.0]
本稿では,テキストの可読性を評価するための統計的および意味的アプローチを統合する新しいアプローチを提案する。
我々の研究はベトナムのテキスト可読性データセット(ViRead)、OneStop English、RASの3つの異なるデータセットを利用した。
SVM(Support Vector Machine)、ランダムフォレスト(Random Forest)、エクストラツリー(Extra Trees)など、さまざまな機械学習モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-11-07T14:54:42Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with
Context Augmentation and Visual Assistance [5.5532783549057845]
本稿では,事前学習したビジョンランゲージモデルを最大限活用するマルチモーダル検索フレームワークを提案する。
当社のシステムは,SemEval-2023 Task 1では最も競争力のある成果を上げていませんが,チームの半分近くを破ることが可能です。
論文 参考訳(メタデータ) (2023-11-30T06:23:15Z) - UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese [2.9649783577150837]
ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-05-07T02:48:47Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。