論文の概要: A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching
- arxiv url: http://arxiv.org/abs/2403.02975v1
- Date: Tue, 5 Mar 2024 13:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 14:40:23.720155
- Title: A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching
- Title(参考訳): 多言語意味マッチングのための汎用的で柔軟なマルチコンセプタ構文解析フレームワーク
- Authors: Dong Yao, Asaad Alghamdi, Qingrong Xia, Xiaoye Qu, Xinyu Duan, Zhefeng
Wang, Yi Zheng, Baoxing Huai, Peilun Cheng, Zhou Zhao
- Abstract要約: 我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
- 参考スコア(独自算出の注目度): 62.53203836521321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence semantic matching is a research hotspot in natural language
processing, which is considerably significant in various key scenarios, such as
community question answering, searching, chatbot, and recommendation. Since
most of the advanced models directly model the semantic relevance among words
between two sentences while neglecting the \textit{keywords} and
\textit{intents} concepts of them, DC-Match is proposed to disentangle keywords
from intents and utilizes them to optimize the matching performance. Although
DC-Match is a simple yet effective method for semantic matching, it highly
depends on the external NER techniques to identify the keywords of sentences,
which limits the performance of semantic matching for minor languages since
satisfactory NER tools are usually hard to obtain. In this paper, we propose to
generally and flexibly resolve the text into multi concepts for multilingual
semantic matching to liberate the model from the reliance on NER models. To
this end, we devise a \underline{M}ulti-\underline{C}oncept \underline{P}arsed
\underline{S}emantic \underline{M}atching framework based on the pre-trained
language models, abbreviated as \textbf{MCP-SM}, to extract various concepts
and infuse them into the classification tokens. We conduct comprehensive
experiments on English datasets QQP and MRPC, and Chinese dataset Medical-SM.
Besides, we experiment on Arabic datasets MQ2Q and XNLI, the outstanding
performance further prove MCP-SM's applicability in low-resource languages.
- Abstract(参考訳): 文意味マッチングは自然言語処理におけるホットスポットであり、コミュニティの質問応答、検索、チャットボット、レコメンデーションなど、さまざまな重要なシナリオにおいて極めて重要である。
先進モデルのほとんどのモデルは、それらの概念を無視しながら、2つの文間の単語間の意味的関連を直接モデル化するため、DC-Matchはキーワードを意図から切り離し、それらを利用してマッチング性能を最適化する。
DC-Matchは単純なセマンティックマッチングの手法であるが、文のキーワードを識別する外部のNER技術に大きく依存している。
本稿では,NERモデルに依存するモデルからモデルを解放するために,多言語セマンティックマッチングのためのテキストを多言語概念に一般かつ柔軟に分解することを提案する。
この目的のために、事前訓練された言語モデルに基づいて、 \underline{M}ulti-\underline{C}oncept \underline{P}arsed \underline{S}emantic \underline{M}atching frameworkを考案し、様々な概念を抽出し、それらを分類トークンに注入する。
英語データセットqqp,mrpc,中国語データセットmedical-smについて総合的な実験を行った。
さらにアラビアデータセット MQ2Q と XNLI を実験し、低リソース言語におけるMPP-SMの適用性をさらに証明した。
関連論文リスト
- mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Leveraging multilingual transfer for unsupervised semantic acoustic word
embeddings [23.822788597966646]
音響単語埋め込み(AWEs)は、音声の内容を符号化する音声セグメントの固定次元ベクトル表現である。
本稿ではセマンティックAWEモデリングについて考察する。
AWEがダウンストリームのセマンティッククエリ・バイ・サンプル検索に使用できることを初めて示します。
論文 参考訳(メタデータ) (2023-07-05T07:46:54Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Divide and Conquer: Text Semantic Matching with Disentangled Keywords
and Intents [19.035917264711664]
本稿では,キーワードを意図から切り離してテキストセマンティックマッチングを行うためのトレーニング戦略を提案する。
提案手法は,予測効率に影響を与えることなく,事前学習言語モデル(PLM)と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-03-06T07:48:24Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Keyword-Attentive Deep Semantic Matching [1.8416014644193064]
本稿では,深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。
まず、大きなコーパスからのドメインタグを利用して、ドメインを拡張したキーワード辞書を生成する。
モデル学習中,入力ペア間のキーワードカバレッジに基づく新しいネガティブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。