論文の概要: Adapting Definition Modeling for New Languages: A Case Study on Belarusian
- arxiv url: http://arxiv.org/abs/2507.09536v1
- Date: Sun, 13 Jul 2025 08:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.461742
- Title: Adapting Definition Modeling for New Languages: A Case Study on Belarusian
- Title(参考訳): 新しい言語に対する定義モデリングの適応:ベラルーシ語を事例として
- Authors: Daniela Kazakouskaya, Timothee Mickus, Janine Siewert,
- Abstract要約: ベラルーシ語で43,150定義の新たなデータセットを提案する。
我々の実験は、定義モデリングシステムを適用するのに最小限のデータを必要とすることを示したが、現時点では自動メトリクスが取得するデータにギャップがあることを実証している。
- 参考スコア(独自算出の注目度): 2.2120851074630177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Definition modeling, the task of generating new definitions for words in context, holds great prospect as a means to assist the work of lexicographers in documenting a broader variety of lects and languages, yet much remains to be done in order to assess how we can leverage pre-existing models for as-of-yet unsupported languages. In this work, we focus on adapting existing models to Belarusian, for which we propose a novel dataset of 43,150 definitions. Our experiments demonstrate that adapting a definition modeling systems requires minimal amounts of data, but that there currently are gaps in what automatic metrics do capture.
- Abstract(参考訳): 文脈における単語の新しい定義を生成するタスクである定義モデリングは、辞書作成者の作業を支援する手段として大いに期待されているが、既存の言語に対する既存のモデルをどのように活用できるかを評価するために、多くのことを行う必要がある。
本研究では,既存のモデルをベラルーシ語に適応させることに集中し,43,150定義の新しいデータセットを提案する。
我々の実験は、定義モデリングシステムを適用するのに最小限のデータを必要とすることを示したが、現時点では自動メトリクスが取得するデータにギャップがあることを実証している。
関連論文リスト
- Linguistic Interpretability of Transformer-based Language Models: a systematic review [1.3194391758295114]
Transformerアーキテクチャに基づく言語モデルは、多くの言語関連タスクにおいて優れた結果をもたらす。
しかし、それらの内部計算がどのように結果を達成するかは分かっていない。
しかし、「解釈可能性」という一連の研究は、これらのモデル内でどのように情報がエンコードされているかを学ぶことを目的としている。
論文 参考訳(メタデータ) (2025-04-09T08:00:12Z) - Small Language Models Also Work With Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
トークン化のない,音素および音素に基づく言語モデルにより,強力な言語性能が得られることを示す。
以上の結果から,より言語学的に妥当な言語モデルを作成する上で,有望な方向性が示唆された。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Toward Cross-Lingual Definition Generation for Language Learners [10.45755551957024]
我々は、様々な言語の単語に対して、英語で定義を生成することを提案する。
モデルは、英語データセットでトレーニングされた後、他の言語に直接適用することができる。
実験と手動解析により,我々のモデルは強い言語間移動能力を有することが示された。
論文 参考訳(メタデータ) (2020-10-12T08:45:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Evaluating a Multi-sense Definition Generation Model for Multiple
Languages [1.5229257192293197]
本稿では,多義語埋め込みに基づく文脈に依存しない定義モデリング手法を提案する。
その結果,提案したマルチセンスモデルでは,全15データセットにおいて単一センスモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-06-12T18:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。