論文の概要: Are LLMs Reliable Translators of Logical Reasoning Across Lexically Diversified Contexts?
- arxiv url: http://arxiv.org/abs/2506.04575v1
- Date: Thu, 05 Jun 2025 02:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.500303
- Title: Are LLMs Reliable Translators of Logical Reasoning Across Lexically Diversified Contexts?
- Title(参考訳): LLMs Reliable Translators of Logical Reasoning around Lexically Diversified Contexts?
- Authors: Qingchuan Li, Jiatong Li, Zirui Liu, Mingyue Cheng, Yuting Zeng, Qi Liu, Tongxuan Liu,
- Abstract要約: 論理翻訳者は語彙の多様化に苦慮している。
既存の論理的推論ベンチマークには語彙的多様性がない。
この大きなギャップに対処するために設計されたベンチマークを提案する。
- 参考スコア(独自算出の注目度): 17.12735924809949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuro-symbolic approaches combining large language models (LLMs) with solvers excels in logical reasoning problems need long reasoning chains. In this paradigm, LLMs serve as translators, converting natural language reasoning problems into formal logic formulas. Then reliable symbolic solvers return correct solutions. Despite their success, we find that LLMs, as translators, struggle to handle lexical diversification, a common linguistic phenomenon, indicating that LLMs as logic translators are unreliable in real-world scenarios. Moreover, existing logical reasoning benchmarks lack lexical diversity, failing to challenge LLMs' ability to translate such text and thus obscuring this issue. In this work, we propose SCALe, a benchmark designed to address this significant gap through **logic-invariant lexical diversification**. By using LLMs to transform original benchmark datasets into lexically diversified but logically equivalent versions, we evaluate LLMs' ability to consistently map diverse expressions to uniform logical symbols on these new datasets. Experiments using SCALe further confirm that current LLMs exhibit deficiencies in this capability. Building directly on the deficiencies identified through our benchmark, we propose a new method, MenTaL, to address this limitation. This method guides LLMs to first construct a table unifying diverse expressions before performing translation. Applying MenTaL through in-context learning and supervised fine-tuning (SFT) significantly improves the performance of LLM translators on lexically diversified text. Our code is now available at https://github.com/wufeiwuwoshihua/LexicalDiver.
- Abstract(参考訳): 大規模言語モデル(LLM)と解法を組み合わせたニューロシンボリックアプローチは、論理的推論問題において長い推論連鎖を必要とする。
このパラダイムでは、LLMはトランスレータとして機能し、自然言語推論問題を形式論理式に変換する。
そして、信頼できるシンボリック・ソルバは正しい解を返す。
彼らの成功にもかかわらず、LLMは語彙の多様化を扱うのに苦労しており、論理翻訳者としてのLLMは現実のシナリオでは信頼できないことを示す共通言語現象である。
さらに、既存の論理的推論ベンチマークは語彙の多様性に欠けており、そのようなテキストを翻訳するLLMの能力に挑戦できず、この問題を隠蔽している。
そこで本研究では,** 論理不変な語彙の多様化** を通じて,この大きなギャップに対処するベンチマーク SCALe を提案する。
LLMを用いて、元のベンチマークデータセットを語彙的に多様だが論理的に等価なバージョンに変換することにより、これらの新しいデータセット上の一様論理記号に、多様な表現を一貫してマッピングする能力を評価する。
SCALeを使った実験は、現在のLLMがこの能力に欠陥があることをさらに確認します。
本稿では,この限界に対処する新しい手法であるMenTaLを提案する。
この方法はLLMを案内し、まず、翻訳を行う前に多様な表現を統一するテーブルを構築する。
文脈内学習と教師付き微調整(SFT)によるMenTaLの適用は、語彙的に多様化したテキスト上でのLLMトランスレータの性能を大幅に向上させる。
私たちのコードはhttps://github.com/wufeiwuwoshihua/LexicalDiver.comで公開されています。
関連論文リスト
- Logical Consistency of Large Language Models in Fact-checking [6.286017217366497]
大規模言語モデル(LLM)は、様々な自然言語タスクを実行する上で大きな成功を収めている。
人間のようなテキストを生成する素晴らしい能力にもかかわらず、LLMは一貫性のない反応で悪名高い。
論文 参考訳(メタデータ) (2024-12-20T17:42:25Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。