論文の概要: Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph
- arxiv url: http://arxiv.org/abs/2601.13251v1
- Date: Mon, 19 Jan 2026 17:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.991952
- Title: Beyond Cosine Similarity: Taming Semantic Drift and Antonym Intrusion in a 15-Million Node Turkish Synonym Graph
- Title(参考訳): Cosineの類似性を超えて: 15ミリのノードトルコ同期グラフでセマンティックドリフトとアンソニムの侵入をテイミングする
- Authors: Ebubekir Tosun, Mehmet Emin Buldur, Özay Ezerceli, Mahmoud ElHussieni,
- Abstract要約: この問題を解決するために,我々は大規模セマンティッククラスタリングシステムを構築している。
我々は,同義語,無調語,同調語にまたがる843,000のコンセプトペアのラベル付きデータセットを紹介した。
第2に、90%のマクロF1を達成する3方向意味論的判別器を提案する。
第3に,ポリセミーを同時に解きながらセマンティックドリフトを緩和するソフト・ハード・クラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural embeddings have a notorious blind spot: they can't reliably tell synonyms apart from antonyms. Consequently, increasing similarity thresholds often fails to prevent opposites from being grouped together. We've built a large-scale semantic clustering system specifically designed to tackle this problem head on. Our pipeline chews through 15 million lexical items, evaluates a massive 520 million potential relationships, and ultimately generates 2.9 million high-precision semantic clusters. The system makes three primary contributions. First, we introduce a labeled dataset of 843,000 concept pairs spanning synonymy, antonymy, and co-hyponymy, constructed via Gemini 2.5-Flash LLM augmentation and verified using human-curated dictionary resources. Second, we propose a specialized three-way semantic relation discriminator that achieves 90% macro-F1, enabling robust disambiguation beyond raw embedding similarity. Third, we introduce a novel soft-to-hard clustering algorithm that mitigates semantic drift preventing erroneous transitive chains (e.g., hot -> spicy -> pain -> depression) while simultaneously resolving polysemy. Our approach employs a topology-aware two-stage expansion-pruning procedure with topological voting, ensuring that each term is assigned to exactly one semantically coherent cluster. The resulting resource enables high-precision semantic search and retrieval-augmented generation, particularly for morphologically rich and low-resource languages where existing synonym databases remain sparse.
- Abstract(参考訳): ニューラル埋め込みには悪名高い盲点があり、無音とは別のシノニムを確実に区別することはできない。
その結果、類似度閾値の上昇は、しばしば、反対側が一緒にグループ化されるのを防ぐのに失敗する。
この問題を解決するために特別に設計された大規模なセマンティッククラスタリングシステムを構築しました。
私たちのパイプラインは1500万の語彙項目を噛み、巨大な5億2000万の潜在的な関係を評価し、最終的には290万の高精度セマンティッククラスタを生成します。
主な貢献は3つある。
まず,Gemini 2.5-Flash LLM拡張を用いて構築し,人為的な辞書資源を用いて検証した,同義語,アンソニミー,コホモニミーにまたがる843,000のコンセプトペアのラベル付きデータセットを紹介する。
第2に、90%のマクロF1を達成する3方向意味論的判別器を提案し、生の埋め込み類似性を超えた堅牢な曖昧さを実現する。
第3に,過渡的連鎖(eg, hot -> Spicy -> pain -> depression)を同時に解消しながら,意味的ドリフトを緩和するソフト・ハードクラスタリングアルゴリズムを提案する。
提案手法はトポロジを意識した2段階展開計画手法とトポロジカル投票を用いて,各項が正確に1つのセマンティックコヒーレントクラスタに割り当てられることを保証する。
結果として得られたリソースは、特に、既存の同義語データベースが不足している形態的にリッチで低リソースな言語に対して、高精度なセマンティック検索と検索強化生成を可能にする。
関連論文リスト
- Un-Doubling Diffusion: LLM-guided Disambiguation of Homonym Duplication [65.67239638031617]
ホモニム(Homonym)とは、同一の綴りであるが意味の異なる単語である。
拡散モデルは単語の複数の感覚を同時に生成することができる。
そこで本研究では,異なる拡散モデルの重複率を計測し,評価を行う手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T14:54:36Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Learning from Semi-Factuals: A Debiased and Semantic-Aware Framework for
Generalized Relation Discovery [12.716874398564482]
Generalized Relation Discovery (GRD) は、既存の事前定義された関係にある未ラベルのインスタンスを特定したり、新しい関係を発見することを目的としている。
本稿では,2段階の半実物から学習することで,この課題に対する新しいフレームワーク,SFGRDを提案する。
SFGRDの精度は2.36%$sim$5.78%、コサイン類似度は32.19%$sim$84.45%である。
論文 参考訳(メタデータ) (2024-01-12T02:38:55Z) - DNA: Denoised Neighborhood Aggregation for Fine-grained Category
Discovery [25.836440772705505]
本稿では,データのセマンティック構造を埋め込み空間にエンコードする自己教師型フレームワークを提案する。
我々は、クエリのk-nearest隣人を正のキーとして検索し、データ間のセマンティックな類似性を捉え、隣人からの情報を集約し、コンパクトなクラスタ表現を学ぶ。
我々の手法は、より正確な隣人(21.31%の精度改善)を検索し、最先端のモデルよりも大きなマージンで性能を向上することができる。
論文 参考訳(メタデータ) (2023-10-16T07:43:30Z) - The Triad of Failure Modes and a Possible Way Out [7.977229957867868]
本稿では,障害モードの回避を目的とした,クラスタベースの自己教師型学習(SSL)のための新たな目的関数を提案する。
この目的は、(i)表現崩壊を罰する生成項、(ii)データ拡張への不変性を促進する用語、(ii)クラスタ崩壊を罰する統一項の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-27T05:54:14Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Distance Based Image Classification: A solution to generative
classification's conundrum? [70.43638559782597]
差別的境界は、何によって意味論を定義するため、直観に反するものであると論じる。
本稿では,シェル理論の階層的生成過程によって意味的因子が許容される新しい生成モデルを提案する。
本モデルを用いて,意味的手がかりを保ちながら雑音の影響を抑える分類手法を開発した。
論文 参考訳(メタデータ) (2022-10-04T03:35:13Z) - Lexical semantics enhanced neural word embeddings [4.040491121427623]
階層的適合は、IS-A階層に本質的に格納されている意味的類似性ニュアンスをモデル化するための新しいアプローチである。
その結果、後期核融合における意味的関係を持つ神経埋め込みを専門とする階層化の有効性が示された。
論文 参考訳(メタデータ) (2022-10-03T08:10:23Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。