論文の概要: I Wish to Have an Argument: Argumentative Reasoning in Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.16938v1
- Date: Fri, 29 Sep 2023 02:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:45:59.102002
- Title: I Wish to Have an Argument: Argumentative Reasoning in Large Language
Models
- Title(参考訳): 議論をしたいと思います: 大規模言語モデルにおける議論的推論
- Authors: Adrian de Wynter and Tommy Yuan
- Abstract要約: 我々は,現代大言語モデル (LLM) が議論的推論を行う能力を評価する。
LLM は AM や APE の最先端技術に適合または超越することができるが,それらの議論的推論性能は入力と出力の表現に大きく依存している。
- 参考スコア(独自算出の注目度): 0.3916094706589679
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We evaluate the ability of contemporary large language models (LLMs) to
perform argumentative reasoning. We frame our experiments in terms of the
argument mining (AM) and argument pair extraction (APE) tasks, and evaluate
their ability to perform reasoning at increasing levels of abstraction in the
input and output representations (e.g., arbitrary label sets, semantic graphs).
We find that, although LLMs are able to match or surpass the state-of-the-art
in AM and APE, their argumentative reasoning performance is very dependent on
the input and output representation. We also find an "exemplar effect", where
too many exemplars increasingly become detrimental for task performance, and
about 4-5 being the optimal amount. Neither result extends to chain-of-thought
(CoT) prompting: we find the exemplar effect to be nullified, and our results
suggest that CoT allows for better performance under ill-conditioned problems.
We hope that the work reported contributes to the improvement of argumentative
reasoning in LLMs.
- Abstract(参考訳): 我々は,現代大言語モデル (LLM) が議論的推論を行う能力を評価する。
我々は、引数マイニング(am)および引数ペア抽出(ape)タスクを用いて実験を行い、入力および出力表現(例えば、任意のラベル集合、意味グラフ)の抽象化レベルを増加させる際に推論を行う能力を評価する。
LLM は AM や APE の最先端技術に適合または超越することができるが,それらの議論的推論性能は入力および出力表現に大きく依存している。
また,タスクパフォーマンスに不利な例が多くなり,最大で4~5が最適である「経験的効果」も見いだされる。
いずれの結果もチェーン・オブ・シント(CoT)には及ばない: 例示的な効果を無効にし, 結果から, CoTが不条件条件下でのより良い性能を実現することが示唆された。
LLMにおける議論的推論の改善に貢献することを願っている。
関連論文リスト
- Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。