論文の概要: Lemma Dilemma: On Lemma Generation Without Domain- or Language-Specific Training Data
- arxiv url: http://arxiv.org/abs/2510.07434v1
- Date: Wed, 08 Oct 2025 18:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.664988
- Title: Lemma Dilemma: On Lemma Generation Without Domain- or Language-Specific Training Data
- Title(参考訳): Lemma Dilemma: ドメインや言語特有のトレーニングデータのないLemma生成について
- Authors: Olia Toporkov, Alan Akbik, Rodrigo Agerri,
- Abstract要約: レマタイズ(Lemmatization)とは、あるテキスト中のすべての単語を辞書形式に変換するタスクである。
文脈的補題化タスクにおいて,大規模言語モデルがいかに効果的かという証拠は,これまで存在しなかった。
本稿では,次世代LLMにおけるテキスト内補間処理の能力について実験的に検討する。
- 参考スコア(独自算出の注目度): 18.87770758217633
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lemmatization is the task of transforming all words in a given text to their dictionary forms. While large language models (LLMs) have demonstrated their ability to achieve competitive results across a wide range of NLP tasks, there is no prior evidence of how effective they are in the contextual lemmatization task. In this paper, we empirically investigate the capacity of the latest generation of LLMs to perform in-context lemmatization, comparing it to the traditional fully supervised approach. In particular, we consider the setting in which supervised training data is not available for a target domain or language, comparing (i) encoder-only supervised approaches, fine-tuned out-of-domain, and (ii) cross-lingual methods, against direct in-context lemma generation with LLMs. Our experimental investigation across 12 languages of different morphological complexity finds that, while encoders remain competitive in out-of-domain settings when fine-tuned on gold data, current LLMs reach state-of-the-art results for most languages by directly generating lemmas in-context without prior fine-tuning, provided just with a few examples. Data and code available upon publication: https://github.com/oltoporkov/lemma-dilemma
- Abstract(参考訳): レマタイズ(Lemmatization)とは、あるテキスト中のすべての単語を辞書形式に変換するタスクである。
大規模言語モデル(LLM)は、幅広いNLPタスクにまたがる競争的な結果を達成する能力を示したが、文脈的補題化タスクにおいて、それらがどの程度効果的であるかの事前の証拠はない。
本稿では,従来の完全教師付きアプローチと比較して,LLMのテキスト内補間を行う能力について実験的に検討する。
特に、対象のドメインや言語に対して教師付きトレーニングデータが利用できない設定を比較検討する。
(i)エンコーダのみによる教師付きアプローチ、細調整外ドメイン、
(ii)LLMによる直接文脈内レムマ生成に対する言語横断法。
異なる形態的複雑性を持つ12言語を対象とした実験の結果、コードコーダは、ゴールドデータに微調整された場合、ドメイン外の環境では競争力を維持するが、現在のLLMは、事前微調整をせずに、文脈内でレムマを直接生成することで、ほとんどの言語に対して最先端の結果に達することが判明した。
公開時に利用可能なデータとコード:https://github.com/oltoporkov/lemma-dilemma
関連論文リスト
- Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Constrained Decoding of Diffusion LLMs with Context-Free Grammars [1.0923877073891446]
大規模言語モデル(LLM)は、様々な領域で有望なパフォーマンスを示している。
本稿では拡散モデルに対する最初の制約付き復号法を提案する。
本手法は,機能的正当性を維持しつつ,ほぼ完全な統語的正当性を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-13T18:09:09Z) - Enhancing Large Language Models'Machine Translation via Dynamic Focus Anchoring [22.297388572921477]
機械翻訳(MT)を含む多言語NLPタスクにおいて、大規模言語モデルは例外的な性能を示した。
持続的な課題は、多文語のような文脈依存単位(CSU)に対処することにある。
本稿では,CSUの取得とセマンティックフォーカスの適用により,LLMのMT能力をシンプルかつ効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T06:29:57Z) - On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data [1.2979906794584584]
訓練中に存在しないデータに対する時間的推論タスクにおけるLarge Language Model(LLM)の適用性はまだ検討されていない分野である。
本稿では、構造化および半構造化された匿名化データに焦点をあてて、このトピックについて論じる。
自然言語における17の共通時間的推論タスクを特定し,そのアルゴリズム的構成要素に着目した。
論文 参考訳(メタデータ) (2025-04-10T10:48:42Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。