論文の概要: Balancing the composition of word embeddings across heterogenous data
sets
- arxiv url: http://arxiv.org/abs/2001.04693v1
- Date: Tue, 14 Jan 2020 10:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 11:58:45.193265
- Title: Balancing the composition of word embeddings across heterogenous data
sets
- Title(参考訳): 異種データセット間の単語埋め込みの構成のバランス
- Authors: Stephanie Brandl, David Lassner, Maximilian Alber
- Abstract要約: 本研究の目的は,単語ベクトルに対する単一部分集合の影響を,その品質を維持しつつ整合させることである。
2つの部分集合埋め込みの重み付き平均は、単語類似性性能が低下する一方、それらの部分集合の影響を均衡させる。
- 参考スコア(独自算出の注目度): 1.3714927666270706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings capture semantic relationships based on contextual
information and are the basis for a wide variety of natural language processing
applications. Notably these relationships are solely learned from the data and
subsequently the data composition impacts the semantic of embeddings which
arguably can lead to biased word vectors. Given qualitatively different data
subsets, we aim to align the influence of single subsets on the resulting word
vectors, while retaining their quality. In this regard we propose a criteria to
measure the shift towards a single data subset and develop approaches to meet
both objectives. We find that a weighted average of the two subset embeddings
balances the influence of those subsets while word similarity performance
decreases. We further propose a promising optimization approach to balance
influences and quality of word embeddings.
- Abstract(参考訳): 単語埋め込みは文脈情報に基づく意味的関係を捉え、多種多様な自然言語処理アプリケーションの基礎となる。
特に、これらの関係はデータからのみ学習され、その後データ合成は埋め込みの意味に影響を与え、偏りのある単語ベクトルに繋がる可能性がある。
定性的に異なるデータサブセットが与えられた場合、その品質を維持しつつ、結果のワードベクトルに対する単一のサブセットの影響を調整することを目的としている。
本稿では,単一データサブセットへのシフトを測定するための基準を提案し,両方の目的を満たすためのアプローチを開発する。
2つの部分集合の重み付け平均はそれらの部分集合の影響をバランスさせ、単語の類似性は低下する。
さらに,単語埋め込みの影響と品質のバランスをとるための有望な最適化手法を提案する。
関連論文リスト
- How well do distributed representations convey contextual lexical semantics: a Thesis Proposal [3.3585951129432323]
本稿では,現代ニューラルネットワークによる語彙意味の符号化における分散表現の有効性について検討する。
文脈に影響された意味の関連性と類似性に基づいて,曖昧さの4つの源を同定する。
次に、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-02T14:08:51Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - MCSE: Multimodal Contrastive Learning of Sentence Embeddings [23.630041603311923]
本稿では,視覚情報とテキスト情報の両方をマルチモーダル・コントラッシブ・オブジェクトを通じて活用する文埋め込み学習手法を提案する。
提案手法は,各種データセットと事前学習エンコーダのパフォーマンスを継続的に向上することを示す。
論文 参考訳(メタデータ) (2022-04-22T21:19:24Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Exploring the Combination of Contextual Word Embeddings and Knowledge
Graph Embeddings [0.0]
知識ベース(KB)の埋め込みは、単語によって示されるエンティティ間の明示的な関係をキャプチャするが、これらの単語のシナタマティックな特性を直接キャプチャすることはできない。
コンテキストとKBの埋め込みを併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T17:49:45Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。