Fugu-MT 論文翻訳(概要): Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism

論文の概要: Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism

arxiv url: http://arxiv.org/abs/2406.18762v1
Date: Wed, 26 Jun 2024 21:17:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:56:54.492529
Title: Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism
Title（参考訳）: カテゴリー的シロジズムの再考:カテゴリー的シロジズムの分析のためのLCMの論理的推論能力について
Authors: Shi Zong, Jimmy Lin,
Abstract要約: 本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
参考スコア（独自算出の注目度）: 62.571419297164645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There have been a huge number of benchmarks proposed to evaluate how large language models (LLMs) behave for logic inference tasks. However, it remains an open question how to properly evaluate this ability. In this paper, we provide a systematic overview of prior works on the logical reasoning ability of LLMs for analyzing categorical syllogisms. We first investigate all the possible variations for the categorical syllogisms from a purely logical perspective and then examine the underlying configurations (i.e., mood and figure) tested by the existing datasets. Our results indicate that compared to template-based synthetic datasets, crowdsourcing approaches normally sacrifice the coverage of configurations (i.e., mood and figure) of categorical syllogisms for more language variations, thus bringing challenges to fully testing LLMs under different situations. We then proceed to summarize the findings and observations for the performances of LLMs to infer the validity of syllogisms from the current literature. The error rate breakdown analyses suggest that the interpretation of the quantifiers seems to be the current bottleneck that limits the performances of the LLMs and is thus worth more attention. Finally, we discuss several points that might be worth considering when researchers plan on the future release of categorical syllogism datasets. We hope our work will not only provide a timely review of the current literature regarding categorical syllogisms, but also motivate more interdisciplinary research between communities, specifically computational linguists and logicians.
Abstract（参考訳）: 大規模言語モデル(LLM)が論理推論タスクに対してどのように振る舞うかを評価するためのベンチマークが多数提案されている。しかし、この能力をどのように適切に評価するかには疑問が残る。本稿では, LLMの論理的推論能力に関する先行研究の系統的概要について述べる。まず、純粋に論理的な観点から分類的シロジズムの可能なすべてのバリエーションを調査し、その後、既存のデータセットによってテストされた基本的な構成(ムードとフィギュア)を調べる。以上の結果から,テンプレートベースの合成データセットと比較すると,クラウドソーシングアプローチでは,分類的シロジズムの構成(ムードとフィギュア)のカバレッジを犠牲にすることで,異なる状況下でLLMを完全にテストする上での課題が生じることが示唆された。そこで本研究では,LLMの性能に関する知見と観察を要約して,現在の文献からシロジズムの妥当性を推定する。誤り率の分解分析は、量子化器の解釈が現在のボトルネックであり、LLMの性能を制限し、より多くの注意を払う価値があることを示唆している。最後に、分類シロジズムデータセットの今後のリリースについて、研究者が検討する価値のあるいくつかのポイントについて論じる。我々の研究は、分類的シロジズムに関する現在の文献のタイムリーなレビューを提供するだけでなく、コミュニティ、特に計算言語学者と論理学者の間でより学際的な研究を動機付けることを願っている。

関連論文リスト

Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [34.29839553042609]
本研究では,3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを提案する。微調整時の監督形式の効果について検討する。この結果から, 自然言語指導は, アウト・オブ・ディストリビューションや長文タスクにも強い一般化をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2025-06-05T09:34:12Z)
Implicit Bias in LLMs: A Survey [2.07180164747172]
本稿では,大規模言語モデルにおける暗黙バイアスに関する既存の文献を包括的にレビューする。まず、心理学における暗黙の偏見に関連する重要な概念、理論、方法を紹介する。検出方法は,単語関連,タスク指向テキスト生成,意思決定の3つの主要なアプローチに分類する。
論文参考訳（メタデータ） (2025-03-04T16:49:37Z)
LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文参考訳（メタデータ） (2025-02-16T15:54:53Z)
Logical forms complement probability in understanding language model (and human) performance [14.694876851134273]
この研究は、自然言語で論理的推論を行う大規模言語モデルの能力を体系的に調査する。命題論理およびモーダル論理における仮説的および解離的シロジズムの制御されたデータセットを導入する。両者の行動データを収集・比較することにより,人間とLLMの論理的推論性能の類似点と相違点を示す。
論文参考訳（メタデータ） (2025-02-13T18:46:44Z)
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文参考訳（メタデータ） (2025-02-08T19:49:32Z)
A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-17T08:59:04Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Can Large Language Models Identify Authorship? [16.35265384114857]
大規模言語モデル(LLM)は、推論と問題解決の特別な能力を示している。 1) LLM はゼロショット・エンド・ツー・エンドのオーサシップ検証を効果的に行うことができるか? 2) LLM は,複数の候補作家(例えば,10,20)の著者を正確に帰属させることができるか?
論文参考訳（メタデータ） (2024-03-13T03:22:02Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-03T12:35:29Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Can Large Language Models emulate an inductive Thematic Analysis of semi-structured interviews? An exploration and provocation on the limits of the approach and the model [0.0]
本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。
論文参考訳（メタデータ） (2023-05-22T13:16:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。