論文の概要: Towards Resolving Word Ambiguity with Word Embeddings
- arxiv url: http://arxiv.org/abs/2307.13417v1
- Date: Tue, 25 Jul 2023 11:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:25:28.159584
- Title: Towards Resolving Word Ambiguity with Word Embeddings
- Title(参考訳): 単語埋め込みによる単語曖昧性の解消に向けて
- Authors: Matthias Thurnbauer, Johannes Reisinger, Christoph Goller, Andreas
Fischer
- Abstract要約: トランスフォーマーモデルは、複雑なクエリに対する単語のあいまいさを扱うために示されているが、あいまいな単語の識別には使用できない。
本稿では,DBSCANクラスタリングを潜在空間に適用することにより,曖昧な単語を識別し,あいまいさのレベルを評価することができることを示す。
- 参考スコア(独自算出の注目度): 0.4795582035438344
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Ambiguity is ubiquitous in natural language. Resolving ambiguous meanings is
especially important in information retrieval tasks. While word embeddings
carry semantic information, they fail to handle ambiguity well. Transformer
models have been shown to handle word ambiguity for complex queries, but they
cannot be used to identify ambiguous words, e.g. for a 1-word query.
Furthermore, training these models is costly in terms of time, hardware
resources, and training data, prohibiting their use in specialized environments
with sensitive data. Word embeddings can be trained using moderate hardware
resources. This paper shows that applying DBSCAN clustering to the latent space
can identify ambiguous words and evaluate their level of ambiguity. An
automatic DBSCAN parameter selection leads to high-quality clusters, which are
semantically coherent and correspond well to the perceived meanings of a given
word.
- Abstract(参考訳): 曖昧さは自然言語でユビキタスである。
曖昧な意味の解決は情報検索作業において特に重要である。
単語の埋め込みは意味情報を伝達するが、曖昧さをうまく扱えない。
トランスフォーマーモデルは、複雑なクエリに対する単語の曖昧さを扱うことが示されているが、1ワードのクエリのように曖昧な単語を特定するのに使用できない。
さらに、これらのモデルのトレーニングは、時間、ハードウェアリソース、およびトレーニングデータの観点からコストがかかり、機密データを持つ特殊な環境での使用を禁止している。
ワード埋め込みは、適度なハードウェアリソースを使ってトレーニングできる。
本稿では,DBSCANクラスタリングを潜在空間に適用することにより,曖昧な単語を識別し,あいまいさのレベルを評価することができることを示す。
自動DBSCANパラメータ選択は、意味的コヒーレントで、与えられた単語の意味をよく認識する高品質なクラスタをもたらす。
関連論文リスト
- AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。
私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。
いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。
これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文 参考訳(メタデータ) (2024-06-27T10:43:04Z) - Zero and Few-shot Semantic Parsing with Ambiguous Inputs [45.285508941560295]
私たちは、曖昧な自然言語を論理やコードといった形式的な表現に変換するためのフレームワーク、データセット、課題であるAmPを紹介します。
我々は,AmPを用いて,複数ショットのテキスト・ツー・コードシステムがあいまいさをどのように処理し,新しいメトリクスを3つ導入するかを検討する。
事前学習された大規模なモデルでは,意図的な指示を伴わずに,可能な意味の分布を把握できないことが判明した。
論文 参考訳(メタデータ) (2023-06-01T15:46:36Z) - Interpretable Word Sense Representations via Definition Generation: The
Case of Semantic Change Analysis [3.515619810213763]
本稿では,文脈化された単語の用法を解釈可能な単語と単語感覚表現として自動生成する自然言語定義を提案する。
得られた感覚ラベルが、意味変化分析に既存のアプローチをより解釈可能なものにする方法を実証する。
論文 参考訳(メタデータ) (2023-05-19T20:36:21Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization
for Relation Extraction [111.74812895391672]
シナジスティック最適化(KnowPrompt)を用いた知識認識型Promptチューニング手法を提案する。
関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。
論文 参考訳(メタデータ) (2021-04-15T17:57:43Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - Semantic Relatedness for Keyword Disambiguation: Exploiting Different
Embeddings [0.0]
本稿では,学習時に未知の外部インベントリ(オントロジー)によって提供される単語と感覚間の意味的関連性に基づくキーワードの曖昧さに対するアプローチを提案する。
実験の結果,特定のドメインをトレーニングすることなく,単語センスの曖昧さ (WSD) を適用した場合に,この手法が技術状況に匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-25T16:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。