Fugu-MT 論文翻訳(概要): Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning

論文の概要: Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning

arxiv url: http://arxiv.org/abs/2505.00001v2
Date: Fri, 02 May 2025 17:47:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 14:44:44.114931
Title: Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning
Title（参考訳）: Rosetta-PL: 大規模言語モデル推論のベンチマークとしての命題論理
Authors: Shaun Baek, Shaun Esua-Mensah, Cyrus Tsui, Sejan Vigneswaralingam, Abdullah Alali, Michael Lu, Vasu Sharma, Sean O'Brien, Kevin Zhu,
Abstract要約: 大規模言語モデル(LLM)は、主に高リソースの自然言語で訓練されている。本研究はLLMの論理的推論と一般化能力を評価するためのベンチマークであるRosetta-PLを紹介する。
参考スコア（独自算出の注目度）: 4.071220436730322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are primarily trained on high-resource natural languages, limiting their effectiveness in low-resource settings and in tasks requiring deep logical reasoning. This research introduces Rosetta-PL, a benchmark designed to evaluate LLMs' logical reasoning and generalization capabilities in a controlled environment. We construct Rosetta-PL by translating a dataset of logical propositions from Lean into a custom logical language, which is then used to fine-tune an LLM (e.g., GPT-4o). Our experiments analyze the impact of the size of the dataset and the translation methodology on the performance of the model. Our results indicate that preserving logical relationships in the translation process significantly boosts precision, with accuracy plateauing beyond roughly 20,000 training samples. These insights provide valuable guidelines for optimizing LLM training in formal reasoning tasks and improving performance in various low-resource language applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、主に高リソースの自然言語で訓練されており、低リソースの設定や深い論理的推論を必要とするタスクでの有効性を制限している。本研究はLLMの論理的推論と制御環境における一般化能力を評価するためのベンチマークであるRosetta-PLを紹介する。我々は、論理命題のデータセットをLeanからカスタム論理言語に変換してRosetta-PLを構築し、LLM(例えば、GPT-4o)を微調整する。実験では,データセットのサイズと翻訳手法がモデルの性能に与える影響を解析した。以上の結果から,翻訳過程における論理的関係の保存は精度を著しく向上させ,約2万のトレーニングサンプルの精度を低下させることが示された。これらの知見は、正式な推論タスクにおけるLLMトレーニングの最適化と、様々な低リソース言語アプリケーションのパフォーマンス向上のための貴重なガイドラインを提供する。

関連論文リスト

Prompt, Translate, Fine-Tune, Re-Initialize, or Instruction-Tune? Adapting LLMs for In-Context Learning in Low-Resource Languages [6.780441755361993]
この研究は、5つの多様なターゲット言語、3つのベースLLM、7つの下流タスク、4,100GPUトレーニング時間(9,900以上のTFLOP)にまたがる。以上の結果から,数発のプロンプトと翻訳テストの設定は勾配に基づく適応法よりも優れる傾向が示唆された。我々の知る限り、この研究は、列車計算と考慮された適応手法の数に関して、低リソース言語における文脈内学習における最大の研究である。
論文参考訳（メタデータ） (2025-06-23T23:22:11Z)
Do Large Language Models Excel in Complex Logical Reasoning with Formal Language? [20.53475791645822]
大規模言語モデル(LLM)は、複雑な論理的推論タスクにおいてブレークスルーのパフォーマンスを達成することが示されている。本稿では,形式言語を用いた論理的推論問題に対して,LLMを包括的に評価することを目的とする。
論文参考訳（メタデータ） (2025-05-22T17:57:23Z)
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文参考訳（メタデータ） (2025-04-02T16:58:36Z)
Is LLM the Silver Bullet to Low-Resource Languages Machine Translation? [14.55410092719299]
低リソース言語(LRL)は、言語資源の制限と標準データセットの表現不足により、自然言語処理において重大な課題を呈している。近年のLarge Language Models (LLMs) とNeural Machine Translationの進歩により、高リソース言語への翻訳機能が大幅に改善されている。本稿では,200言語における現在のLLMを体系的に評価し,LRL翻訳能力の限界を示す。
論文参考訳（メタデータ） (2025-03-31T13:56:03Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文参考訳（メタデータ） (2024-10-04T09:50:45Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。