論文の概要: Presence or Absence: Are Unknown Word Usages in Dictionaries?
- arxiv url: http://arxiv.org/abs/2406.00656v2
- Date: Thu, 4 Jul 2024 16:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 22:54:33.697390
- Title: Presence or Absence: Are Unknown Word Usages in Dictionaries?
- Title(参考訳): 存在か存在か:辞書の未知語使用か?
- Authors: Xianghe Ma, Dominik Schlechtweg, Wei Zhao,
- Abstract要約: 我々は,フィンランド語,ロシア語,ドイツ語の共用課題であるAXOLOTL-24の評価を行った。
未知の単語使用量と辞書エントリ間のマッピングを予測するために,グラフベースのクラスタリング手法を用いる。
私たちのシステムはフィンランド語とドイツ語で第1位、ロシア語で第2位、Subtask 2テストフェーズのリーダーボードで第2位にランクインします。
- 参考スコア(独自算出の注目度): 6.185216877366987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a surge of interest in computational modeling of semantic change. The foci of previous works are on detecting and interpreting word senses gained over time; however, it remains unclear whether the gained senses are covered by dictionaries. In this work, we aim to fill this research gap by comparing detected word senses with dictionary sense inventories in order to bridge between the communities of lexical semantic change detection and lexicography. We evaluate our system in the AXOLOTL-24 shared task for Finnish, Russian and German languages \cite{fedorova-etal-2024-axolotl}. Our system is fully unsupervised. It leverages a graph-based clustering approach to predict mappings between unknown word usages and dictionary entries for Subtask 1, and generates dictionary-like definitions for those novel word usages through the state-of-the-art Large Language Models such as GPT-4 and LLaMA-3 for Subtask 2. In Subtask 1, our system outperforms the baseline system by a large margin, and it offers interpretability for the mapping results by distinguishing between matched and unmatched (novel) word usages through our graph-based clustering approach. Our system ranks first in Finnish and German, and ranks second in Russian on the Subtask 2 test-phase leaderboard. These results show the potential of our system in managing dictionary entries, particularly for updating dictionaries to include novel sense entries. Our code and data are made publicly available\footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}.
- Abstract(参考訳): 意味変化の計算モデルへの関心が高まっている。
先行研究の焦点は、時間とともに得られた単語感覚を検知・解釈することにあるが、獲得した感覚が辞書によってカバーされているかは定かではない。
本研究は,語彙意味変化検出と語彙認識のコミュニティ間を橋渡しするために,検出された単語感覚と辞書感覚の在庫を比較することで,この研究ギャップを埋めることを目的とする。
我々は,フィンランド語,ロシア語,ドイツ語の共用タスクであるAXOLOTL-24のシステム評価を行った。
私たちのシステムは完全に教師なしです。
グラフベースのクラスタリング手法を利用して、未知の単語使用量とSubtask 1の辞書エントリ間のマッピングを予測し、Subtask 2のGPT-4やLLaMA-3のような最先端の大規模言語モデルを通して、それらの新しい単語使用量に対する辞書のような定義を生成する。
Subtask 1では,本システムでは,グラフベースのクラスタリング手法を用いて,一致した単語と未一致の単語を区別することで,マッピング結果の解釈可能性を実現する。
私たちのシステムはフィンランド語とドイツ語で第1位、ロシア語で第2位、Subtask 2テストフェーズのリーダーボードで第2位です。
これらの結果から,辞書項目の管理における本システムの有用性が示唆された。
私たちのコードとデータは公開されています。footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}。
関連論文リスト
- TartuNLP @ AXOLOTL-24: Leveraging Classifier Output for New Sense Detection in Lexical Semantics [0.21485350418225246]
AXOLOTL-24共有タスクに提案する。
このタスクは2つのサブタスクから構成される: 単語が時間とともに得られる新しい感覚を識別し、識別された新しい感覚の定義を生成する。
適応型バイナリ分類モデルをトレーニングし、使用例とグルースを一致させ、モデルの確率出力を利用して新しい感覚を識別した。
論文 参考訳(メタデータ) (2024-07-04T11:46:39Z) - Sõnajaht: Definition Embeddings and Semantic Search for Reverse Dictionary Creation [0.21485350418225246]
本稿では,最新の事前学習言語モデルと近接する近傍探索アルゴリズムを用いて,情報検索に基づく逆辞書システムを提案する。
提案手法はエストニアの既存の語彙資源であるソナベブ(単語ウェブ)に適用され,セマンティック検索を利用した言語間逆辞書機能を導入して拡張・強化することを目的としている。
論文 参考訳(メタデータ) (2024-04-30T10:21:14Z) - Rosetta Stone at KSAA-RD Shared Task: A Hop From Language Modeling To
Word--Definition Alignment [2.6672466522084948]
この研究は、アラビア語の単語のベクトル表現を付随する記述から導き出すことに重点を置いている。
最初のサブタスクに対して、我々のアプローチは、与えられた定義に埋め込まれた単語を予測し、微調整されたアラビア語 BERT ベースのモデルのアンサンブルに依存する。
対照的に、第2サブタスクの最も効果的な解決策は、英語のテスト定義をアラビア語に翻訳することである。
論文 参考訳(メタデータ) (2023-10-24T13:23:57Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - RUSSE'2020: Findings of the First Taxonomy Enrichment Task for the
Russian language [70.27072729280528]
本稿では,ロシア語の分類学的豊か化に関する最初の共有課題の結果について述べる。
16チームがこのタスクに参加し、半数以上が提供されたベースラインを上回った。
論文 参考訳(メタデータ) (2020-05-22T13:30:37Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。