論文の概要: Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.00001v2
- Date: Fri, 02 May 2025 17:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 14:44:44.114931
- Title: Rosetta-PL: Propositional Logic as a Benchmark for Large Language Model Reasoning
- Title(参考訳): Rosetta-PL: 大規模言語モデル推論のベンチマークとしての命題論理
- Authors: Shaun Baek, Shaun Esua-Mensah, Cyrus Tsui, Sejan Vigneswaralingam, Abdullah Alali, Michael Lu, Vasu Sharma, Sean O'Brien, Kevin Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、主に高リソースの自然言語で訓練されている。
本研究はLLMの論理的推論と一般化能力を評価するためのベンチマークであるRosetta-PLを紹介する。
- 参考スコア(独自算出の注目度): 4.071220436730322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are primarily trained on high-resource natural languages, limiting their effectiveness in low-resource settings and in tasks requiring deep logical reasoning. This research introduces Rosetta-PL, a benchmark designed to evaluate LLMs' logical reasoning and generalization capabilities in a controlled environment. We construct Rosetta-PL by translating a dataset of logical propositions from Lean into a custom logical language, which is then used to fine-tune an LLM (e.g., GPT-4o). Our experiments analyze the impact of the size of the dataset and the translation methodology on the performance of the model. Our results indicate that preserving logical relationships in the translation process significantly boosts precision, with accuracy plateauing beyond roughly 20,000 training samples. These insights provide valuable guidelines for optimizing LLM training in formal reasoning tasks and improving performance in various low-resource language applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、主に高リソースの自然言語で訓練されており、低リソースの設定や深い論理的推論を必要とするタスクでの有効性を制限している。
本研究はLLMの論理的推論と制御環境における一般化能力を評価するためのベンチマークであるRosetta-PLを紹介する。
我々は、論理命題のデータセットをLeanからカスタム論理言語に変換してRosetta-PLを構築し、LLM(例えば、GPT-4o)を微調整する。
実験では,データセットのサイズと翻訳手法がモデルの性能に与える影響を解析した。
以上の結果から,翻訳過程における論理的関係の保存は精度を著しく向上させ,約2万のトレーニングサンプルの精度を低下させることが示された。
これらの知見は、正式な推論タスクにおけるLLMトレーニングの最適化と、様々な低リソース言語アプリケーションのパフォーマンス向上のための貴重なガイドラインを提供する。
関連論文リスト
- Scaling Test-time Compute for Low-resource Languages: Multilingual Reasoning in LLMs [3.9530780161144667]
本稿では,大規模言語モデルが潜在空間で内部的に操作する多言語メカニズムについて検討する。
我々は、低リソース言語での入力を条件に、ターゲット言語で最終応答を出力しながら、英語でチェーン・オブ・ソート(CoT)を生成するモデルを訓練する。
我々の実験では、この手法は英語によるCoTトレーニングと呼ばれ、28.33%の改善で他のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-04-02T16:58:36Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。