Fugu-MT 論文翻訳(概要): Generating bilingual example sentences with large language models as lexicography assistants

論文の概要: Generating bilingual example sentences with large language models as lexicography assistants

arxiv url: http://arxiv.org/abs/2410.03182v1
Date: Fri, 4 Oct 2024 06:45:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 03:14:31.058782
Title: Generating bilingual example sentences with large language models as lexicography assistants
Title（参考訳）: 辞書アシスタントとしての大型言語モデルを用いたバイリンガル例文の生成
Authors: Raphael Merx, Ekaterina Vylomova, Kemal Kurniawan,
Abstract要約: 本稿では,資源レベルの異なる言語におけるバイリンガル辞書の例文の生成と評価におけるLLMの性能について検討する。 GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。
参考スコア（独自算出の注目度）: 2.6550899846546527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a study of LLMs' performance in generating and rating example sentences for bilingual dictionaries across languages with varying resource levels: French (high-resource), Indonesian (mid-resource), and Tetun (low-resource), with English as the target language. We evaluate the quality of LLM-generated examples against the GDEX (Good Dictionary EXample) criteria: typicality, informativeness, and intelligibility. Our findings reveal that while LLMs can generate reasonably good dictionary examples, their performance degrades significantly for lower-resourced languages. We also observe high variability in human preferences for example quality, reflected in low inter-annotator agreement rates. To address this, we demonstrate that in-context learning can successfully align LLMs with individual annotator preferences. Additionally, we explore the use of pre-trained language models for automated rating of examples, finding that sentence perplexity serves as a good proxy for typicality and intelligibility in higher-resourced languages. Our study also contributes a novel dataset of 600 ratings for LLM-generated sentence pairs, and provides insights into the potential of LLMs in reducing the cost of lexicographic work, particularly for low-resource languages.
Abstract（参考訳）: 本稿では,フランス語(高資源),インドネシア語(中資源),テトゥン語(低資源),英語を対象言語とする言語間のバイリンガル辞書の例文の生成と評価におけるLLMの性能について述べる。 GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。この結果から,LLMは十分な辞書例を生成できるが,低リソース言語では性能が著しく低下することが明らかとなった。また,低いアノテータ間の合意率に反映される品質など,人間の嗜好の変動も観察する。そこで本研究では,LLMを個々のアノテータの好みに合わせることができることを示す。さらに、実例の自動評価に事前訓練された言語モデルを用いることについて検討し、文の難易度が高リソース言語における典型性とインテリジェンスのための優れたプロキシとなることを発見した。また,LLM生成文対に対する600の新たな評価データセットも提供し,特に低リソース言語において,LLMが辞書作業のコスト削減に寄与する可能性について考察した。

関連論文リスト

It's All About In-Context Learning! Teaching Extremely Low-Resource Languages to LLMs [16.130133009174124]
極端に低リソースな言語、特に稀なスクリプトで書かれた言語は、大きな言語モデル(LLM)によってほとんどサポートされていない。本稿では,LLMがテキスト内学習(ICL)によって純粋にそのような言語を習得できるかどうかを,補助的アライメント信号を用いて解析し,パラメータ効率のよい微調整(PEFT)と比較した。我々は3つの最先端多言語 LLM にまたがる20の非表現言語を評価する。
論文参考訳（メタデータ） (2025-08-26T14:51:10Z)
In-context Language Learning for Endangered Languages in Speech Recognition [15.294500162002345]
In-context Learning (ICL) を用いて,大規模言語モデル (LLM) が未知の低リソース言語を学習できるかどうかを検討する。 ICLは、これらの言語に特化して訓練された専用言語モデルに匹敵する、あるいは超越したASR性能を実現することができることを示す。
論文参考訳（メタデータ） (2025-05-26T18:38:59Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
On Limitations of LLM as Annotator for Low Resource Languages [0.4194295877935868]
低リソース言語は、教師付き学習、アノテーション、分類といったタスクのための十分な言語データ、リソース、ツールが不足しているため、重大な課題に直面している。この不足は正確なモデルやデータセットの開発を妨げるため、感情分析やヘイトスピーチ検出といった重要なNLPタスクの実行が困難になる。このギャップを埋めるために、Large Language Models (LLM) は潜在的なアノテータの機会を提供する。
論文参考訳（メタデータ） (2024-11-26T17:55:37Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文参考訳（メタデータ） (2024-06-21T20:02:22Z)
Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。 ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文参考訳（メタデータ） (2024-03-25T07:55:29Z)
High-quality Data-to-Text Generation for Severely Under-Resourced Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。 LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文参考訳（メタデータ） (2024-02-19T16:29:40Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。