論文の概要: OpenGloss: A Synthetic Encyclopedic Dictionary and Semantic Knowledge Graph
- arxiv url: http://arxiv.org/abs/2511.18622v1
- Date: Sun, 23 Nov 2025 21:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.93521
- Title: OpenGloss: A Synthetic Encyclopedic Dictionary and Semantic Knowledge Graph
- Title(参考訳): OpenGloss: 合成百科事典と意味知識グラフ
- Authors: Michael J. Bommarito,
- Abstract要約: OpenGlossは、英語の合成百科事典辞書と意味知識グラフである。
語彙的定義、百科事典的文脈、語源的歴史、統一リソースにおける意味的関係を統合する。
全資源は1週間以内に1,000ドル以下で生産された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OpenGloss, a synthetic encyclopedic dictionary and semantic knowledge graph for English that integrates lexicographic definitions, encyclopedic context, etymological histories, and semantic relationships in a unified resource. OpenGloss contains 537K senses across 150K lexemes, on par with WordNet 3.1 and Open English WordNet, while providing more than four times as many sense definitions. These lexemes include 9.1M semantic edges, 1M usage examples, 3M collocations, and 60M words of encyclopedic content. Generated through a multi-agent procedural generation pipeline with schema-validated LLM outputs and automated quality assurance, the entire resource was produced in under one week for under $1,000. This demonstrates that structured generation can create comprehensive lexical resources at cost and time scales impractical for manual curation, enabling rapid iteration as foundation models improve. The resource addresses gaps in pedagogical applications by providing integrated content -- definitions, examples, collocations, encyclopedias, etymology -- that supports both vocabulary learning and natural language processing tasks. As a synthetically generated resource, OpenGloss reflects both the capabilities and limitations of current foundation models. The dataset is publicly available on Hugging Face under CC-BY 4.0, enabling researchers and educators to build upon and adapt this resource.
- Abstract(参考訳): 本稿では,語彙的定義,百科事典的文脈,語源的歴史,および統一リソースにおける意味関係を統合した,英語の合成百科事典辞書および意味知識グラフであるOpenGlossを紹介する。
OpenGlossは、WordNet 3.1やOpen English WordNetと同等の150Kレキセムに537Kのセンスを持ち、多くのセンス定義の4倍以上の機能を提供する。
これらのレキシムには、9.1Mセマンティックエッジ、100Mの使用例、3Mコロケーション、60Mワードの百科事典コンテンツが含まれる。
スキーマ検証されたLCM出力と自動品質保証を備えたマルチエージェントプロシージャ生成パイプラインを通じて生成され、全リソースが1週間以内に1,000ドル以下で製造された。
このことは、構造化された生成がコストと時間スケールで包括的な語彙資源を創出し、手作業によるキュレーションが不可能であることを示し、基礎モデルの改善とともに迅速な反復を可能にする。
このリソースは、語彙学習と自然言語処理の両方をサポートする統合コンテンツ(定義、例、コロケーション、百科事典、語源学)を提供することによって、教育的応用におけるギャップに対処する。
合成生成されたリソースとして、OpenGlossは現在の基盤モデルの能力と限界を反映している。
このデータセットは、CC-BY 4.0の下でHugging Faceで公開されている。
関連論文リスト
- Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Vec2Gloss: definition modeling leveraging contextualized vectors with
Wordnet gloss [8.741676279851728]
対象単語の文脈的埋め込みから光沢を生成するVec2Gloss'モデルを提案する。
この研究で得られた光沢は、中国語のWordnetの体系的な光沢パターンによって実現されている。
以上の結果から,提案したVec2Glossモデルが文脈的埋め込みの語彙-意味的応用に新たな視点を開きつつあることが示唆された。
論文 参考訳(メタデータ) (2023-05-29T02:37:37Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Feature-rich multiplex lexical networks reveal mental strategies of
early language learning [0.7111443975103329]
FEature-Rich MUltiplex LEXical (FERMULEX) ネットワークについて述べる。
類似性は、知識のセマンティック/シンタクティック/音声学的側面にまたがる異種単語関連をモデル化する。
単語には、周波数、取得年齢、長さ、ポリセミーを含む多次元特徴埋め込みが組み込まれている。
論文 参考訳(メタデータ) (2022-01-13T16:44:51Z) - Computational linguistic assessment of textbook and online learning
media by means of threshold concepts in business education [59.003956312175795]
言語学的観点では、しきい値の概念は特別な語彙の例であり、特定の言語的特徴を示す。
ビジネス教育における63のしきい値の概念のプロファイルは、教科書、新聞、ウィキペディアで調査されている。
3種類のリソースは、しきい値の概念のプロファイルから区別できる。
論文 参考訳(メタデータ) (2020-08-05T12:56:16Z) - A Broad-Coverage Deep Semantic Lexicon for Verbs [3.219005794369446]
COLLIE-Vは動詞のための深い語彙資源であり、WordNetと既存のリソースを満足または超越する意味的な詳細を網羅している。
新しい存在論的概念と語彙的エントリは、意味的役割の選好とentailment axiomとともに自動的に導出される。
論文 参考訳(メタデータ) (2020-07-06T12:03:14Z) - Automatic Compilation of Resources for Academic Writing and Evaluating
with Informal Word Identification and Paraphrasing System [24.42822218256954]
学術書記のためのリソースを自動構築する最初の手法を提案する。
目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
論文 参考訳(メタデータ) (2020-03-05T22:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。