論文の概要: Evaluating OpenAI GPT Models for Translation of Endangered Uralic Languages: A Comparison of Reasoning and Non-Reasoning Architectures
- arxiv url: http://arxiv.org/abs/2512.16287v1
- Date: Thu, 18 Dec 2025 08:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.978472
- Title: Evaluating OpenAI GPT Models for Translation of Endangered Uralic Languages: A Comparison of Reasoning and Non-Reasoning Architectures
- Title(参考訳): 絶滅危惧言語翻訳のためのOpenAI GPTモデルの評価:推論と非推論アーキテクチャの比較
- Authors: Yehor Tereshchenko, Mika Hämäläinen, Svitlana Myroniuk,
- Abstract要約: 本研究では、フィンランド語と4つの低リソースウラル語を翻訳するOpenAIのGPTモデルを包括的に比較する。
本稿では,文文の並列コーパスを用いて,拒絶率分析による翻訳の試み意欲の評価を行う。
その結果, 推論モデルと非推論モデルの間に有意な性能変化がみられ, 推論モデルでは拒絶率が16ポイント低下した。
- 参考スコア(独自算出の注目度): 0.1682277069379282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of Large Language Models (LLMs) for translation tasks has primarily focused on high-resource languages, leaving a significant gap in understanding their performance on low-resource and endangered languages. This study presents a comprehensive comparison of OpenAI's GPT models, specifically examining the differences between reasoning and non-reasoning architectures for translating between Finnish and four low-resource Uralic languages: Komi-Zyrian, Moksha, Erzya, and Udmurt. Using a parallel corpus of literary texts, we evaluate model willingness to attempt translation through refusal rate analysis across different model architectures. Our findings reveal significant performance variations between reasoning and non-reasoning models, with reasoning models showing 16 percentage points lower refusal rates. The results provide valuable insights for researchers and practitioners working with Uralic languages and contribute to the broader understanding of reasoning model capabilities for endangered language preservation.
- Abstract(参考訳): 翻訳タスクに対するLarge Language Models (LLMs) の評価は、主に高リソース言語に焦点を当てており、低リソース言語や絶滅危惧言語での性能を理解する上で大きなギャップを残している。
本研究では,OpenAIのGPTモデルを総合的に比較し,フィンランド語と4つの低リソースウラル語(Komi-Zyrian,Moksha,Erzya,Udmurt)の翻訳における推論アーキテクチャと非推論アーキテクチャの違いについて検討する。
文文の並列コーパスを用いて、異なるモデルアーキテクチャ間での拒絶率分析を通じて、翻訳を試みようとするモデル意欲を評価する。
その結果, 推論モデルと非推論モデルの間に有意な性能変化がみられ, 推論モデルでは拒絶率が16ポイント低下した。
この結果は、ウルリク語を扱う研究者や実践者に貴重な洞察を与え、絶滅危惧言語保存のための推論モデル能力のより広範な理解に寄与する。
関連論文リスト
- Quantifying Language Disparities in Multilingual Large Language Models [31.198046729180266]
大規模多言語評価で報告された結果は、しばしば、対象言語、実験的な設定の違い、モデル選択などの要因によって断片化され、まとめられる。
本稿では,これらの相反する変数をアンタングル化し,性能実現率,変動係数,言語ポテンシャルの3つの解釈可能な指標を導入するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-23T23:25:38Z) - Reveal-Bangla: A Dataset for Cross-Lingual Multi-Step Reasoning Evaluation [4.452583096196014]
本稿では,英語Revealデータセットから派生した,手動で翻訳したBangla多段階推論データセットを提案する。
英語中心およびバングラ語中心の多言語小言語モデルの制御評価を行う。
以上の結果から,より困難な非バイナリ問題に対して,推論コンテキストが有用であることが示唆された。
論文 参考訳(メタデータ) (2025-08-12T13:34:10Z) - Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [54.96891982093408]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。