Fugu-MT 論文翻訳(概要): Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models

論文の概要: Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models

arxiv url: http://arxiv.org/abs/2312.11720v1
Date: Mon, 18 Dec 2023 21:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 17:47:54.448953
Title: Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models
Title（参考訳）: エンコーダのみ変換器モデルの論理推論能力の評価
Authors: Paulo Pirozelli, Marcos M. Jos\'e, Paulo de Tarso P. Filho, Anarosa A. F. Brand\~ao, Fabio G. Cozman
Abstract要約: 本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に従ってどの程度理にかなっているかを検討する。様々なデータセットの論理的妥当性を決定するために,エンコーダのみのLMを適度に訓練できることを示す。これらのデータセット上で微調整されたモデルをクロスプロブすることで、LMはそれらの仮定的論理的推論能力の伝達が困難であることを示す。
参考スコア（独自算出の注目度）: 0.13980986259786224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Logical reasoning is central to complex human activities, such as thinking, debating, and planning; it is also a central component of many AI systems as well. In this paper, we investigate the extent to which encoder-only transformer language models (LMs) can reason according to logical rules. We ask whether those LMs can deduce theorems in propositional calculus and first-order logic; if their relative success in these problems reflects general logical capabilities; and which layers contribute the most to the task. First, we show for several encoder-only LMs that they can be trained, to a reasonable degree, to determine logical validity on various datasets. Next, by cross-probing fine-tuned models on these datasets, we show that LMs have difficulty in transferring their putative logical reasoning ability, which suggests that they may have learned dataset-specific features, instead of a general capability. Finally, we conduct a layerwise probing experiment, which shows that the hypothesis classification task is mostly solved through higher layers.
Abstract（参考訳）: 論理的推論は思考、議論、計画といった複雑な人間の活動の中心であり、多くのAIシステムの中心的なコンポーネントでもある。本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に則ってどの程度理屈を導けるかを検討する。これらのlmsが命題計算と一階述語論理の定理を推論できるか、それらの問題の相対的成功が一般的な論理能力を反映しているのか、どの層がそのタスクに最も寄与するかを問う。まず,複数のエンコーダのみのLMを適度に訓練して,様々なデータセットの論理的妥当性を判定できることを示す。次に、これらのデータセット上で微調整されたモデルをクロスプロファイリングすることにより、LMはそれらの仮定的論理的推論能力の伝達に困難を持つことを示す。最後に,階層的探索実験を行い,仮説分類タスクがより上位層を通じて解かれることを示した。

関連論文リスト

Towards a Mechanistic Understanding of Propositional Logical Reasoning in Large Language Models [31.709549159768727]
PropLogic-MI上のQwen3 (8Bと14B)の解析 - 1ホップと2ホップの推論にまたがる11の命題論理ルールカテゴリにまたがるデータセット。解析により、4つのインターロック機構からなるコヒーレントな計算構造が明らかになった。これらのメカニズムは、モデルスケール、ルールタイプ、推論深さをまたいで一般化され、LLMが論理的推論のために構造化された計算戦略を採用するという機械的証拠を提供する。
論文参考訳（メタデータ） (2026-01-07T04:20:30Z)
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文参考訳（メタデータ） (2025-04-04T20:57:36Z)
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [10.106408289179463]
本稿では,入力コンテキストから拡張論理情報を生成するために,命題論理を利用するロジック・オブ・ソート(LoT)プロンプトを提案する。 LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文参考訳（メタデータ） (2024-09-26T04:59:45Z)
Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文参考訳（メタデータ） (2024-05-02T18:12:08Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文参考訳（メタデータ） (2024-03-24T11:27:16Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。