論文の概要: Accurate and Efficient Statistical Testing for Word Semantic Breadth
- arxiv url: http://arxiv.org/abs/2605.08048v1
- Date: Fri, 08 May 2026 17:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.245928
- Title: Accurate and Efficient Statistical Testing for Word Semantic Breadth
- Title(参考訳): 単語セマンティック・ブレッドスにおける高精度かつ効率的な統計的検査法
- Authors: Yo Ehara,
- Abstract要約: 分散に基づく統計は、文脈的多様性のプロキシとして機能する。
そこで本研究では,方向の相違から相違点を分離するために,世帯適応型変質試験を提案する。
本手法は, 真の広帯域差に対する感度を保ちながら, Type-I誤差を32.5%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring the breadth of a word's meaning, or its spread across contexts, has become feasible with contextualized token embeddings. A word type can be represented as a cloud of token vectors, with dispersion-based statistics serving as proxies for contextual diversity (Nagata and Tanaka-Ishii, ACL2025). These measurements are useful for deciding appropriate sense distinctions when constructing thesauri and domain-specific dictionaries. However, when comparing the breadth of two word types, naive hypothesis testing on dispersion can be misleading: differences in semantic direction can masquerade as dispersion differences, inflating Type-I error and yielding "statistically significant" outcomes even when there is no true breadth difference. This is problematic because significance testing should distinguish genuine effects from incidental fluctuations in small-difference regimes. We propose a Householder-aligned permutation test to isolate dispersion differences from directional differences. Our method applies a single Householder reflection to align the mean directions of the two word types and then performs a permutation test on the aligned token clouds, yielding calibrated, non-parametric p-values. For practicality, we introduce a GPU-oriented implementation that batches permutations and linear algebra operations. Empirically, our alignment reduced Type-I error by 32.5% while preserving sensitivity to genuine breadth differences, and achieved a 23x speedup over the CPU baseline.
- Abstract(参考訳): 単語の意味の広さ、文脈にまたがる広さを測定することは、文脈化されたトークンの埋め込みによって実現可能になった。
単語型はトークンベクトルの雲として表現でき、分散統計は文脈的多様性のプロキシとして機能する(Nagata and Tanaka-Ishii, ACL2025)。
これらの測定は、テザウリとドメイン固有の辞書を構築する際に、適切なセンスの区別を決定するのに有用である。
しかし、2種類の単語の広さを比較する際には、意味的方向の違いを分散の相違としてマスクレードし、タイプIの誤りを膨らませ、真の広さの相違がない場合でも「統計的に重要な」結果をもたらす、という単純な仮説テストが誤解を招くことがある。
これは、重要度試験は、小さな差分体制における偶発的な変動と真の効果を区別すべきである、という問題である。
そこで本研究では,方向の相違点から相違点を分離するために,世帯適応型変分法テストを提案する。
提案手法は,2種類の単語の平均方向を1つの世帯反射法で整列し,整列したトークンクラウド上で置換試験を行い,校正された非パラメトリックなp値を生成する。
実用的には、置換と線形代数演算をバッチ化するGPU指向の実装を導入する。
経験的に、我々のアライメントは、真の幅の差に対する感度を保ちながらType-Iエラーを32.5%削減し、CPUベースラインの23倍のスピードアップを達成した。
関連論文リスト
- Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - SoftCVI: Contrastive variational inference with self-generated soft labels [2.5398014196797614]
変分推論とマルコフ連鎖モンテカルロ法がこのタスクの主要なツールである。
ソフトコントラスト変動推論(SoftCVI)を導入し、コントラスト推定フレームワークを用いて変動対象のファミリーを導出する。
我々は、SoftCVIを用いて、訓練や大量発見に安定な目標を定式化することができ、他の変分アプローチよりも頻繁に優れた推論が可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-22T14:54:12Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Learning Counterfactually Invariant Predictors [11.682403472580162]
我々はCIP(Counterfactual Invariant Prediction)と呼ばれるモデルに依存しないフレームワークを提案する。
実験の結果,CIPが様々なシミュレーションおよび実世界のデータセットに反実的不変性を付与する効果が示された。
論文 参考訳(メタデータ) (2022-07-20T09:23:35Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z) - Statistically significant detection of semantic shifts using contextual
word embeddings [7.439525715543974]
文脈的単語埋め込みと順列に基づく統計的テストを組み合わせて意味的変化を推定する手法を提案する。
本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。
また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。
論文 参考訳(メタデータ) (2021-04-08T13:58:54Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Wasserstein Distance Regularized Sequence Representation for Text
Matching in Asymmetrical Domains [51.91456788949489]
WD-Matchと呼ばれる非対称領域におけるテキストマッチングに適した新しいマッチング手法を提案する。
WD-Matchでは、ワッサーシュタイン距離に基づく正規化器が定義され、異なる領域から投影される特徴ベクトルを正規化する。
WD-Matchのトレーニングプロセスは、ワッサースタイン距離によって正規化されるマッチング損失を最小限に抑えるゲームに相当する。
論文 参考訳(メタデータ) (2020-10-15T12:52:09Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。