論文の概要: Human-in-the-Loop Refinement of Word Embeddings
- arxiv url: http://arxiv.org/abs/2110.02884v1
- Date: Wed, 6 Oct 2021 16:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 19:13:17.640513
- Title: Human-in-the-Loop Refinement of Word Embeddings
- Title(参考訳): ヒューマンインザループによる単語埋め込みの微細化
- Authors: James Powell, Kari Sentz, Martin Klein
- Abstract要約: 単語埋め込み後処理の適応を組み込んだシステムを提案する。
我々のアプローチは、人間が対話的に単語の埋め込みによって潜在的な品質問題を特定し、対処することを可能にする。
また、単語の埋め込み、単語の埋め込みに対する改善が機械学習パイプラインに与える影響について、より深い洞察を与えることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word embeddings are a fixed, distributional representation of the context of
words in a corpus learned from word co-occurrences. Despite their proven
utility in machine learning tasks, word embedding models may capture uneven
semantic and syntactic representations, and can inadvertently reflect various
kinds of bias present within corpora upon which they were trained. It has been
demonstrated that post-processing of word embeddings to apply information found
in lexical dictionaries can improve the semantic associations, thus improving
their quality. Building on this idea, we propose a system that incorporates an
adaptation of word embedding post-processing, which we call "interactive
refitting", to address some of the most daunting qualitative problems found in
word embeddings. Our approach allows a human to identify and address potential
quality issues with word embeddings interactively. This has the advantage of
negating the question of who decides what constitutes bias or what other
quality issues may affect downstream tasks. It allows each organization or
entity to address concerns they may have at a fine grained level and to do so
in an iterative and interactive fashion. It also allows for better insight into
what effect word embeddings, and refinements to word embeddings, have on
machine learning pipelines.
- Abstract(参考訳): 単語埋め込みは、単語共起から学習したコーパス内の単語の文脈の固定された分布表現である。
機械学習タスクで有用性が証明されているにもかかわらず、単語埋め込みモデルは不均一な意味的および構文的表現を捉え、訓練されたコーパス内に存在する様々なバイアスを不注意に反映することができる。
語彙辞書にある情報を適用した単語埋め込みの処理後,意味的関連性が向上し,品質が向上することが実証された。
そこで本研究では,「対話的リフィッティング」と呼ぶ単語埋め込み後処理の適応を組み込んだシステムを提案する。
このアプローチにより、人間は単語埋め込みの潜在的な品質問題を特定し、対処することができる。
これは、誰がバイアスを構成するか、他の品質上の問題が下流タスクに影響するかを決めるという問題を否定する利点がある。
各組織や組織は、きめ細かいレベルでの懸念に対処し、反復的でインタラクティブな方法でそれを行うことができます。
さらに、単語埋め込みの効果や、単語埋め込みの改善がマシンラーニングパイプラインに与える影響に関する洞察を深めることも可能だ。
関連論文リスト
- Comparing Performance of Different Linguistically-Backed Word Embeddings
for Cyberbullying Detection [3.029434408969759]
ほとんどの場合、単語の埋め込みは生のトークンからのみ学習され、場合によってはレムマから学習される。
本稿では, 生のトークンや補題と組み合わせることで, 形態, 構文, その他の言語情報を保存することを提案する。
論文 参考訳(メタデータ) (2022-06-04T09:11:41Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - A Survey On Neural Word Embeddings [0.4822598110892847]
自然言語処理における意味の研究は、分布仮説に依存する。
概念の分散表現という革命的な考えは、人間の心の働きに近い。
ニューラルワード埋め込みは、すべてのNLPタスクを大幅に改善することで、NLPの分野全体を変革した。
論文 参考訳(メタデータ) (2021-10-05T03:37:57Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - On the Impact of Knowledge-based Linguistic Annotations in the Quality
of Scientific Embeddings [0.0]
我々は, 科学的コーパスから埋め込みを生成するために, 明示的な言語アノテーションを用いた研究を行う。
以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。
一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。
論文 参考訳(メタデータ) (2021-04-13T13:51:22Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Blind signal decomposition of various word embeddings based on join and
individual variance explained [11.542392473831672]
そこで本稿では,JIVEとJIVEを併用して,各種単語の組込みを結合成分と個別成分に分解する,新しい結合信号分離手法を提案する。
我々は,2vec,FastText,GLoVEの異なるコーパスと異なる次元で訓練を行った。
その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能が大幅に向上できることが判明した。
論文 参考訳(メタデータ) (2020-11-30T01:36:29Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。