Fugu-MT 論文翻訳(概要): Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

論文の概要: Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions

arxiv url: http://arxiv.org/abs/2402.18025v1
Date: Wed, 28 Feb 2024 03:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 16:23:46.848273
Title: Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions
Title（参考訳）: 言語学者を雇え! 言語記述を用いた絶滅危惧言語学習
Authors: Kexun Zhang, Yee Man Choi, Zhenqiao Song, Taiqi He, William Yang Wang, Lei Li
Abstract要約: lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。 GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
参考スコア（独自算出の注目度）: 52.95579788485411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How can large language models (LLMs) process and translate endangered languages? Many languages lack a large corpus to train a decent LLM; therefore existing LLMs rarely perform well in unseen, endangered languages. On the contrary, we observe that 2000 endangered languages, though without a large corpus, have a grammar book or a dictionary. We propose LINGOLLM, a training-free approach to enable an LLM to process unseen languages that hardly occur in its pre-training. Our key insight is to demonstrate linguistic knowledge of an unseen language in an LLM's prompt, including a dictionary, a grammar book, and morphologically analyzed input text. We implement LINGOLLM on top of two models, GPT-4 and Mixtral, and evaluate their performance on 5 tasks across 8 endangered or low-resource languages. Our results show that LINGOLLM elevates translation capability from GPT-4's 0 to 10.5 BLEU for 10 language directions. Our findings demonstrate the tremendous value of linguistic knowledge in the age of LLMs for endangered languages. Our data, code, and model generations can be found at https://github.com/LLiLab/llm4endangeredlang.
Abstract（参考訳）: 大規模言語モデル(llm)は、どのようにして絶滅危惧言語を処理し、翻訳できるのか? 多くの言語は適切なllmを訓練するために大きなコーパスを欠いているため、既存のllmが目に見えない絶滅危惧言語でうまく機能することはほとんどない。それとは対照的に,2000の絶滅危惧言語は大きなコーパスを持たないものの文法書や辞書を持っている。我々は,LLMが事前学習でほとんど起こらない未知の言語を処理可能にするための,トレーニング不要のアプローチであるlingOLLMを提案する。私たちの重要な洞察は、辞書、文法書、形態素解析された入力テキストを含むllmのプロンプトで、目に見えない言語の言語知識を示すことです。 lingollmをgpt-4とmixtralという2つのモデル上に実装し、8つの絶滅危惧言語や低リソース言語で5つのタスクでのパフォーマンスを評価した。 GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。絶滅危惧言語におけるLLMの時代における言語知識の価値は極めて高い。私たちのデータ、コード、モデル世代はhttps://github.com/LLiLab/llm4endangeredlangで確認できます。

関連論文リスト

BYOL: Bring Your Own Language Into LLMs [12.151176703151428]
大規模言語モデル(LLM)は、多言語機能を示すが、グローバル言語リソースの深刻な不均衡によって制約される。この格差は、体系的なアンパフォーマンス、文化的不整合、低リソース言語と極低リソース言語の話者へのアクセシビリティの制限につながる。 bring Your Own Language (BYOL)は、各言語のデジタルフットプリントに合わせて、スケーラブルで言語対応のLLM開発のための統合フレームワークである。
論文参考訳（メタデータ） (2026-01-15T19:15:13Z)
It's All About In-Context Learning! Teaching Extremely Low-Resource Languages to LLMs [16.130133009174124]
極端に低リソースな言語、特に稀なスクリプトで書かれた言語は、大きな言語モデル(LLM)によってほとんどサポートされていない。本稿では,LLMがテキスト内学習(ICL)によって純粋にそのような言語を習得できるかどうかを,補助的アライメント信号を用いて解析し,パラメータ効率のよい微調整(PEFT)と比較した。我々は3つの最先端多言語 LLM にまたがる20の非表現言語を評価する。
論文参考訳（メタデータ） (2025-08-26T14:51:10Z)
Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文参考訳（メタデータ） (2024-11-02T05:10:50Z)
Unraveling the Potential of Large Language Models in Code Translation: How Far Are We? [4.616570111453259]
大規模言語モデル(LLM)は様々なタスクにおいて最先端のパフォーマンスを示すが、コード翻訳には苦労する。コード翻訳タスクにおけるLLMの能力と能力を利用するための大規模な実証的研究を行う。提案手法は,(1)ソースと対象言語間の中間言語を選択する中間翻訳と,(2)自己生成並列データ上でLPMを微調整する自己学習である。
論文参考訳（メタデータ） (2024-10-13T12:20:12Z)
LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。 5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文参考訳（メタデータ） (2024-06-03T20:25:12Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。 Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文参考訳（メタデータ） (2024-05-09T13:54:22Z)
Teaching Large Language Models an Unseen Language on the Fly [32.83773919852362]
In-context Learning を用いて LLM を未知の言語に適用するためのフレームワークである DiPMT++ を紹介した。辞書と5Kパラレル文のみを用いて、DiPMT++は中国語から中国語への翻訳において、0から16BLEUまでのGPT-4の性能を大幅に向上させる。また、もう1つの目に見えない言語であるKalamang上で、我々のフレームワークの有効性を検証する。
論文参考訳（メタデータ） (2024-02-29T13:50:47Z)
Zero-Shot Cross-Lingual Reranking with Large Language Models for Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文参考訳（メタデータ） (2023-12-26T18:38:54Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (2023-05-11T05:19:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。