論文の概要: Towards Automated Lexicography: Generating and Evaluating Definitions for Learner's Dictionaries
- arxiv url: http://arxiv.org/abs/2601.01842v1
- Date: Mon, 05 Jan 2026 07:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.834393
- Title: Towards Automated Lexicography: Generating and Evaluating Definitions for Learner's Dictionaries
- Title(参考訳): 自動辞書作成に向けて:学習者の辞書の定義の生成と評価
- Authors: Yusuke Ide, Adam Nohejl, Joshua Tanner, Hitomi Yanaka, Christopher Lindsay, Taro Watanabe,
- Abstract要約: 辞書定義生成(DDG)、すなわち、与えられた見出しに対する非文脈定義の生成について研究する。
具体的には,学習者の辞書定義生成(LDDG)に対処する。
- 参考スコア(独自算出の注目度): 37.91511820811209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study dictionary definition generation (DDG), i.e., the generation of non-contextualized definitions for given headwords. Dictionary definitions are an essential resource for learning word senses, but manually creating them is costly, which motivates us to automate the process. Specifically, we address learner's dictionary definition generation (LDDG), where definitions should consist of simple words. First, we introduce a reliable evaluation approach for DDG, based on our new evaluation criteria and powered by an LLM-as-a-judge. To provide reference definitions for the evaluation, we also construct a Japanese dataset in collaboration with a professional lexicographer. Validation results demonstrate that our evaluation approach agrees reasonably well with human annotators. Second, we propose an LDDG approach via iterative simplification with an LLM. Experimental results indicate that definitions generated by our approach achieve high scores on our criteria while maintaining lexical simplicity.
- Abstract(参考訳): 辞書定義生成(DDG)、すなわち、与えられた見出しに対する非文脈定義の生成について研究する。
辞書の定義は単語感覚を学習するのに必須のリソースですが、それらを手作業で作成するにはコストがかかります。
具体的には,学習者の辞書定義生成(LDDG)に対処する。
まず,新しい評価基準に基づき,LCM-as-a-judgeを用いたDDGの信頼性評価手法を提案する。
評価のための参照定義を提供するため,専門家の辞書作成者と協調して日本語データセットを構築した。
評価結果は,評価手法が人間のアノテーションと合理的に一致していることを示している。
次に LLM を用いた反復的単純化による LDDG アプローチを提案する。
実験結果から, 語彙的単純さを維持しつつ, 基準値の高得点を達成できることが示唆された。
関連論文リスト
- Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - De-jargonizing Science for Journalists with GPT-4: A Pilot Study [3.730699089967391]
このシステムは、ジャーゴンの識別においてかなり高いリコールを達成し、読者のジャーゴンの識別における相対的な違いを保存する。
この発見は、科学記者を支援するための生成AIの可能性を強調し、密集した文書を単純化するツールの開発について将来の研究を知らせる。
論文 参考訳(メタデータ) (2024-10-15T21:10:01Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Assisting Language Learners: Automated Trans-Lingual Definition
Generation via Contrastive Prompt Learning [25.851611353632926]
標準定義生成タスクは、モノリンガル定義を自動的に生成する必要がある。
本稿では,他言語で定義を生成することを目的としたTLDG(Trans-Lingual Definition Generation)を提案する。
論文 参考訳(メタデータ) (2023-06-09T17:32:45Z) - SSDL: Self-Supervised Dictionary Learning [20.925371262076744]
本稿では,この課題に対処するために,自己教師付き辞書学習(SSDL)フレームワークを提案する。
具体的には,まず,Laplacian Attention Hypergraph Learningブロックをプレテキストタスクとして設計し,DLの擬似ソフトラベルを生成する。
次に、擬似ラベルを用いて、一次ラベル埋め込みDL法から辞書を訓練する。
論文 参考訳(メタデータ) (2021-12-03T08:55:08Z) - Toward Cross-Lingual Definition Generation for Language Learners [10.45755551957024]
我々は、様々な言語の単語に対して、英語で定義を生成することを提案する。
モデルは、英語データセットでトレーニングされた後、他の言語に直接適用することができる。
実験と手動解析により,我々のモデルは強い言語間移動能力を有することが示された。
論文 参考訳(メタデータ) (2020-10-12T08:45:28Z) - VCDM: Leveraging Variational Bi-encoding and Deep Contextualized Word
Representations for Improved Definition Modeling [24.775371434410328]
定義モデリングの課題は、単語やフレーズの定義を学習することである。
このタスクの既存のアプローチは差別的であり、直接的ではなく暗黙的に分布的意味論と語彙的意味論を組み合わせたものである。
本稿では、文脈内で使われるフレーズとその定義の基盤となる関係を明示的にモデル化するために、連続潜時変数を導入したタスク生成モデルを提案する。
論文 参考訳(メタデータ) (2020-10-07T02:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。