論文の概要: Presence or Absence: Are Unknown Word Usages in Dictionaries?
- arxiv url: http://arxiv.org/abs/2406.00656v1
- Date: Sun, 2 Jun 2024 07:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:56:22.796758
- Title: Presence or Absence: Are Unknown Word Usages in Dictionaries?
- Title(参考訳): 存在か存在か:辞書の未知語使用か?
- Authors: Xianghe Ma, Dominik Schlechtweg, Wei Zhao,
- Abstract要約: フィンランド語,ロシア語,ドイツ語の共用課題であるAXOLOTL-24に提出したシステムの構成と結果について概説する。
私たちのシステムは完全に教師なしです。
グラフベースのクラスタリングアプローチを活用して、未知の単語使用量とSubtask 1.1の辞書エントリ間のマッピングを予測する。
Subtask 2 用の GPT-4 や LLaMA-3 のような最先端の大規模言語モデルを通じて、これらの新しい単語使用法に対する辞書のような定義を生成する。
- 参考スコア(独自算出の注目度): 6.185216877366987
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we outline the components and results of our system submitted to the AXOLOTL-24 shared task for Finnish, Russian and German languages. Our system is fully unsupervised. It leverages a graph-based clustering approach to predict mappings between unknown word usages and dictionary entries for Subtask 1, and generates dictionary-like definitions for those novel word usages through the state-of-the-art Large Language Models such as GPT-4 and LLaMA-3 for Subtask 2. In Subtask 1, our system outperforms the baseline system by a large margin, and it offers interpretability for the mapping results by distinguishing between matched and unmatched (novel) word usages through our graph-based clustering approach. Our system ranks first in Finnish and German, and ranks second in Russian on the Subtask 2 test-phase leaderboard. These results show the potential of our system in managing dictionary entries, particularly for updating dictionaries to include novel sense entries. Our code and data are made publicly available\footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}.
- Abstract(参考訳): 本研究では,フィンランド語,ロシア語,ドイツ語の共用課題であるAXOLOTL-24に提案するシステムの構成と結果について概説する。
私たちのシステムは完全に教師なしです。
グラフベースのクラスタリング手法を利用して、未知の単語使用量とSubtask 1の辞書エントリ間のマッピングを予測し、Subtask 2のGPT-4やLLaMA-3のような最先端の大規模言語モデルを通して、それらの新しい単語使用量に対する辞書のような定義を生成する。
Subtask 1では,本システムでは,グラフベースのクラスタリング手法を用いて,一致した単語と未一致の単語を区別することで,マッピング結果の解釈可能性を実現する。
私たちのシステムはフィンランド語とドイツ語で第1位、ロシア語で第2位、Subtask 2テストフェーズのリーダーボードで第2位です。
これらの結果から,辞書項目の管理における本システムの有用性が示唆された。
私たちのコードとデータは公開されています。footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}。
関連論文リスト
- TartuNLP @ AXOLOTL-24: Leveraging Classifier Output for New Sense Detection in Lexical Semantics [0.21485350418225246]
AXOLOTL-24共有タスクに提案する。
このタスクは2つのサブタスクから構成される: 単語が時間とともに得られる新しい感覚を識別し、識別された新しい感覚の定義を生成する。
適応型バイナリ分類モデルをトレーニングし、使用例とグルースを一致させ、モデルの確率出力を利用して新しい感覚を識別した。
論文 参考訳(メタデータ) (2024-07-04T11:46:39Z) - Sõnajaht: Definition Embeddings and Semantic Search for Reverse Dictionary Creation [0.21485350418225246]
本稿では,最新の事前学習言語モデルと近接する近傍探索アルゴリズムを用いて,情報検索に基づく逆辞書システムを提案する。
提案手法はエストニアの既存の語彙資源であるソナベブ(単語ウェブ)に適用され,セマンティック検索を利用した言語間逆辞書機能を導入して拡張・強化することを目的としている。
論文 参考訳(メタデータ) (2024-04-30T10:21:14Z) - Rosetta Stone at KSAA-RD Shared Task: A Hop From Language Modeling To
Word--Definition Alignment [2.6672466522084948]
この研究は、アラビア語の単語のベクトル表現を付随する記述から導き出すことに重点を置いている。
最初のサブタスクに対して、我々のアプローチは、与えられた定義に埋め込まれた単語を予測し、微調整されたアラビア語 BERT ベースのモデルのアンサンブルに依存する。
対照的に、第2サブタスクの最も効果的な解決策は、英語のテスト定義をアラビア語に翻訳することである。
論文 参考訳(メタデータ) (2023-10-24T13:23:57Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - RUSSE'2020: Findings of the First Taxonomy Enrichment Task for the
Russian language [70.27072729280528]
本稿では,ロシア語の分類学的豊か化に関する最初の共有課題の結果について述べる。
16チームがこのタスクに参加し、半数以上が提供されたベースラインを上回った。
論文 参考訳(メタデータ) (2020-05-22T13:30:37Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。