論文の概要: Effect of dimensionality change on the bias of word embeddings
- arxiv url: http://arxiv.org/abs/2312.17292v1
- Date: Thu, 28 Dec 2023 13:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 15:13:01.778749
- Title: Effect of dimensionality change on the bias of word embeddings
- Title(参考訳): 単語埋め込みのバイアスに及ぼす次元変化の影響
- Authors: Rohit Raj Rai, Amit Awekar
- Abstract要約: 単語埋め込みのバイアスに,次元変化がどう影響するかを検討する。
単語埋め込みのバイアスには次元変化による大きな変化がある。
次元変化が単語埋め込みのバイアスにどのように影響するかには一様性はない。
- 参考スコア(独自算出の注目度): 1.1784544255941167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embedding methods (WEMs) are extensively used for representing text
data. The dimensionality of these embeddings varies across various tasks and
implementations. The effect of dimensionality change on the accuracy of the
downstream task is a well-explored question. However, how the dimensionality
change affects the bias of word embeddings needs to be investigated. Using the
English Wikipedia corpus, we study this effect for two static (Word2Vec and
fastText) and two context-sensitive (ElMo and BERT) WEMs. We have two
observations. First, there is a significant variation in the bias of word
embeddings with the dimensionality change. Second, there is no uniformity in
how the dimensionality change affects the bias of word embeddings. These
factors should be considered while selecting the dimensionality of word
embeddings.
- Abstract(参考訳): 単語埋め込み法(WEM)はテキストデータの表現に広く用いられている。
これらの埋め込みの次元は様々なタスクや実装によって異なる。
下流タスクの精度に及ぼす次元変化の影響はよく調査された問題である。
しかし,次元変化が単語埋め込みのバイアスに与える影響について検討する必要がある。
英語のウィキペディアコーパスを用いて2つの静的(Word2VecとfastText)と2つのコンテキスト依存(ElMoとBERT)WEMでこの効果を研究する。
2つの観察があります
第一に、単語埋め込みのバイアスには、次元変化を伴う有意な変化がある。
第二に、次元変化が単語埋め込みのバイアスにどのように影響するかに一様性はない。
これらの要因は、単語埋め込みの次元性を選択しながら考慮すべきである。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization [57.86083349873154]
テキスト・ツー・イメージのカスタマイズは、与えられた被験者に対してテキスト駆動の画像を合成することを目的としている。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
我々は、RealCustomを初めて、被写体の影響を関連部分のみに正確に制限することで、制御性から類似性を解き放つことを提示する。
論文 参考訳(メタデータ) (2024-03-01T12:12:09Z) - Frequency-aware Dimension Selection for Static Word Embedding by Mixed
Product Distance [22.374525706652207]
本稿では,単語埋め込みアルゴリズムを訓練することなく,単語埋め込みアルゴリズムの適切な次元を選択するための計量(Mixed Product Distance, MPD)を提案する。
文脈不使用タスクと文脈不使用タスクの両方の実験は,MPDに基づく次元選択法において,ベースラインよりも効率と性能のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-13T02:53:37Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Word Tour: One-dimensional Word Embeddings via the Traveling Salesman
Problem [6.09170287691728]
本研究では,教師なし1次元単語埋め込みのWordTourを提案する。
そこで本研究では,単語埋め込みのデシラタを,完全性と健全性という2つの部分に分解する手法を提案する。
単一の次元のため、WordTourは非常に効率的で、単語の埋め込みを処理するための最小限の手段を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:46:02Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Word Embeddings: Stability and Semantic Change [0.0]
本稿では,過去10年で最も影響力のある埋め込み技術である word2vec, GloVe, fastText のトレーニングプロセスの不安定性について実験的に検討する。
本稿では,埋め込み手法の不安定性を記述する統計モデルを提案し,個々の単語の表現の不安定性を測定するための新しい指標を提案する。
論文 参考訳(メタデータ) (2020-07-23T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。