Fugu-MT 論文翻訳(概要): I Wish to Have an Argument: Argumentative Reasoning in Large Language Models

論文の概要: I Wish to Have an Argument: Argumentative Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2309.16938v1
Date: Fri, 29 Sep 2023 02:41:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 15:45:59.102002
Title: I Wish to Have an Argument: Argumentative Reasoning in Large Language Models
Title（参考訳）: 議論をしたいと思います: 大規模言語モデルにおける議論的推論
Authors: Adrian de Wynter and Tommy Yuan
Abstract要約: 我々は,現代大言語モデル (LLM) が議論的推論を行う能力を評価する。 LLM は AM や APE の最先端技術に適合または超越することができるが,それらの議論的推論性能は入力と出力の表現に大きく依存している。
参考スコア（独自算出の注目度）: 0.3916094706589679
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We evaluate the ability of contemporary large language models (LLMs) to perform argumentative reasoning. We frame our experiments in terms of the argument mining (AM) and argument pair extraction (APE) tasks, and evaluate their ability to perform reasoning at increasing levels of abstraction in the input and output representations (e.g., arbitrary label sets, semantic graphs). We find that, although LLMs are able to match or surpass the state-of-the-art in AM and APE, their argumentative reasoning performance is very dependent on the input and output representation. We also find an "exemplar effect", where too many exemplars increasingly become detrimental for task performance, and about 4-5 being the optimal amount. Neither result extends to chain-of-thought (CoT) prompting: we find the exemplar effect to be nullified, and our results suggest that CoT allows for better performance under ill-conditioned problems. We hope that the work reported contributes to the improvement of argumentative reasoning in LLMs.
Abstract（参考訳）: 我々は,現代大言語モデル (LLM) が議論的推論を行う能力を評価する。我々は、引数マイニング(am)および引数ペア抽出(ape)タスクを用いて実験を行い、入力および出力表現(例えば、任意のラベル集合、意味グラフ)の抽象化レベルを増加させる際に推論を行う能力を評価する。 LLM は AM や APE の最先端技術に適合または超越することができるが,それらの議論的推論性能は入力および出力表現に大きく依存している。また,タスクパフォーマンスに不利な例が多くなり,最大で4～5が最適である「経験的効果」も見いだされる。いずれの結果もチェーン・オブ・シント(CoT)には及ばない: 例示的な効果を無効にし, 結果から, CoTが不条件条件下でのより良い性能を実現することが示唆された。 LLMにおける議論的推論の改善に貢献することを願っている。

関連論文リスト

MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification [12.449402503089164]
本稿では,各大規模言語モデルの証拠に形式的構造を提供する新しいフレームワークであるMArgEを紹介する。実験により,MArgEは単一LLMよりも有意に優れることが示された。
論文参考訳（メタデータ） (2025-08-04T16:40:02Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文参考訳（メタデータ） (2024-06-26T21:17:20Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。 LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文参考訳（メタデータ） (2024-03-14T04:06:13Z)
Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。 LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文参考訳（メタデータ） (2024-02-19T12:12:35Z)
Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-01-28T06:50:10Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Logic-LM: Empowering Large Language Models with Symbolic Solvers for Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文参考訳（メタデータ） (2023-05-20T22:25:38Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。