論文の概要: Word Definitions from Large Language Models
- arxiv url: http://arxiv.org/abs/2311.06362v2
- Date: Thu, 31 Oct 2024 23:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:39.279419
- Title: Word Definitions from Large Language Models
- Title(参考訳): 大規模言語モデルからの単語定義
- Authors: Bach Pham, JuiHsuan Wong, Samuel Kim, Yunting Yin, Steven Skiena,
- Abstract要約: 3つの辞書の定義をChatGPTの変種から生成されたものと比較する。
i) 従来の辞書からの定義は, モデルによる定義よりも表面形状が類似していること, (ii) 従来の辞書に匹敵する高い精度のChatGPT定義が, (iii) チャtGPTに基づく埋め込み定義は低頻度語でも精度を保っていること, を示す。
- 参考スコア(独自算出の注目度): 8.158571243835725
- License:
- Abstract: Dictionary definitions are historically the arbitrator of what words mean, but this primacy has come under threat by recent progress in NLP, including word embeddings and generative models like ChatGPT. We present an exploratory study of the degree of alignment between word definitions from classical dictionaries and these newer computational artifacts. Specifically, we compare definitions from three published dictionaries to those generated from variants of ChatGPT. We show that (i) definitions from different traditional dictionaries exhibit more surface form similarity than do model-generated definitions, (ii) that the ChatGPT definitions are highly accurate, comparable to traditional dictionaries, and (iii) ChatGPT-based embedding definitions retain their accuracy even on low frequency words, much better than GloVE and FastText word embeddings.
- Abstract(参考訳): 辞書の定義は歴史的に言葉の意味の仲裁者だったが、近年のNLPの進歩により、単語の埋め込みやChatGPTのような生成モデルなど、この優位性は脅かされている。
本稿では,古典辞書からの単語定義と,これらの新しい計算成果物との整合度について探索的研究を行う。
具体的には、3つの公開辞書の定義をChatGPTの変種から生成されたものと比較する。
私たちはそれを示します
i) 異なる伝統的な辞書の定義は、モデルが生成する定義よりも、より表面的な形態の類似性を示す。
(II) ChatGPT の定義は従来の辞書に匹敵する極めて正確であり、
三 チャットGPTに基づく埋め込み定義は、GloVE や FastText よりもはるかに優れた低周波語でも精度を保っている。
関連論文リスト
- Definition generation for lexical semantic change detection [3.7297237438000788]
ダイアクロニック辞書意味変化検出(LSCD)タスクにおける意味表現として,大言語モデルによって生成された文脈化された単語定義を用いる。
つまり、生成された定義を感覚として使用し、比較対象単語の変化スコアを、比較対象単語の分布を2つの期間に比較して検索する。
本手法は従来の非教師付きLSCD法と同等か優れる。
論文 参考訳(メタデータ) (2024-06-20T10:13:08Z) - Enriching Word Usage Graphs with Cluster Definitions [5.3135532294740475]
本稿では,複数の言語に対する既存のWUGを,意味定義として機能するクラスタラベルに富んだ単語使用グラフ(WUG)のデータセットを提案する。
それらは、微調整エンコーダ-デコーダ言語モデルによってスクラッチから生成される。
人体評価の結果、これらの定義はWordNetから選択した定義よりもWUGの既存のクラスタとよく一致していることがわかった。
論文 参考訳(メタデータ) (2024-03-26T18:22:05Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - Distance Based Image Classification: A solution to generative
classification's conundrum? [70.43638559782597]
差別的境界は、何によって意味論を定義するため、直観に反するものであると論じる。
本稿では,シェル理論の階層的生成過程によって意味的因子が許容される新しい生成モデルを提案する。
本モデルを用いて,意味的手がかりを保ちながら雑音の影響を抑える分類手法を開発した。
論文 参考訳(メタデータ) (2022-10-04T03:35:13Z) - A Unified Model for Reverse Dictionary and Definition Modelling [7.353994554197792]
我々は、定義(逆辞書)から単語を推測し、与えられた単語(定義モデリング)を生成するために、二方向ニューラル辞書を訓練する。
本手法は,2つのタスクを同時に学習し,埋め込みによる未知語処理を行う。
単語や定義を共有層を通じて同じ表現空間にキャストし、そこから他の形式をマルチタスク形式で生成する。
論文 参考訳(メタデータ) (2022-05-09T23:52:39Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Lacking the embedding of a word? Look it up into a traditional
dictionary [0.2624902795082451]
従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。
DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-24T06:27:58Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。