論文の概要: OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature
- arxiv url: http://arxiv.org/abs/2505.22945v1
- Date: Wed, 28 May 2025 23:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.589264
- Title: OWL: Probing Cross-Lingual Recall of Memorized Texts via World Literature
- Title(参考訳): OWL:世界文学を通して記憶されたテキストの言語横断的リコールを提案する
- Authors: Alisha Srivastava, Emir Korukluoglu, Minh Nhat Le, Duyen Tran, Chau Minh Pham, Marzena Karpinska, Mohit Iyyer,
- Abstract要約: 本稿では,大規模言語モデル(LLM)における多言語・多言語間記憶について検討する。
OWLは、英語の原文、公用語(ベトナム語、スペイン語、トルコ語)、および6つの低リソース言語(Sesotho, Yoruba, Maithili, Malagasy, Setswana, Tahitian)の新しい翻訳を含む10の言語で20冊の本から31.5Kの抜粋を抽出したデータセットである。
事前学習データの直接翻訳のないテキストであっても,LLMは言語間のコンテンツを常にリコールしていることがわかった。
- 参考スコア(独自算出の注目度): 28.65106623149889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to memorize and recall English text from their pretraining data. However, the extent to which this ability generalizes to non-English languages or transfers across languages remains unclear. This paper investigates multilingual and cross-lingual memorization in LLMs, probing if memorized content in one language (e.g., English) can be recalled when presented in translation. To do so, we introduce OWL, a dataset of 31.5K aligned excerpts from 20 books in ten languages, including English originals, official translations (Vietnamese, Spanish, Turkish), and new translations in six low-resource languages (Sesotho, Yoruba, Maithili, Malagasy, Setswana, Tahitian). We evaluate memorization across model families and sizes through three tasks: (1) direct probing, which asks the model to identify a book's title and author; (2) name cloze, which requires predicting masked character names; and (3) prefix probing, which involves generating continuations. We find that LLMs consistently recall content across languages, even for texts without direct translation in pretraining data. GPT-4o, for example, identifies authors and titles 69% of the time and masked entities 6% of the time in newly translated excerpts. Perturbations (e.g., masking characters, shuffling words) modestly reduce direct probing accuracy (7% drop for shuffled official translations). Our results highlight the extent of cross-lingual memorization and provide insights on the differences between the models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前学習されたデータから英語のテキストを記憶し、思い出させることが知られている。
しかし、この能力が英語以外の言語に一般化される程度や、言語間での移動の程度は未定である。
本稿では,LLMにおける多言語・多言語記憶について検討し,ある言語(eg,英語)で記憶された内容が翻訳で提示された際に思い出すことができるかどうかを検証した。
例えば、英語の原典、公式翻訳(ベトナム語、スペイン語、トルコ語)、そして6つの低リソース言語(セソト語、ヨルバ語、マイティリ語、マラガシー語、セツワナ語、タヒチ語)の翻訳である。
本研究は,(1)書籍のタイトルと著者の識別をモデルに依頼する直接探索,(2)仮面文字名の予測を必要とする名前クローゼ,(3)連続生成を伴う接頭辞探索の3つのタスクを通じて,モデルファミリーとサイズ間の記憶を評価する。
事前学習データの直接翻訳のないテキストであっても,LLMは言語間のコンテンツを常にリコールしていることがわかった。
例えば、GPT-4oは著者とタイトルの69%を識別し、新たに翻訳された抜粋の6%を隠蔽している。
摂動(例えば、文字のマスキング、単語のシャッフルなど)は、直接探索の精度をわずかに低下させる(シャッフルされた公式翻訳では7%の低下)。
本結果は,言語間の記憶の程度を強調し,モデルの相違点について考察する。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked
Language Models [100.29953199404905]
語彙重複の少ない言語間でのトークン共有を非強調化することにより,多言語語彙に拡張する新たなアプローチを提案する。
我々は100万のトークン語彙を持つ多言語言語モデルであるXLM-Vを訓練する。
XLM-V は低リソースの言語タスクに特に有効であり、マサハナーとアメリカの NLI では XLM-R を 11.2% と 5.8% で上回っている。
論文 参考訳(メタデータ) (2023-01-25T09:15:17Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。