論文の概要: Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics
- arxiv url: http://arxiv.org/abs/2509.15739v1
- Date: Fri, 19 Sep 2025 08:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.069818
- Title: Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics
- Title(参考訳): LLMは議論できるか? 論証理論のセマンティックスによる非線形推論の評価
- Authors: Reza Sanayei, Srdjan Vesic, Eduardo Blanco, Mihai Surdeanu,
- Abstract要約: 我々はCAT(Computational Argumentation Theory)からLarge Language Models (LLMs) を推定できるかどうかを評価する。
我々はQuADセマンティクスを用いて、攻撃とサポートの関係に基づいて、アクセプティビリティスコアを引数に割り当てる。
- 参考スコア(独自算出の注目度): 24.173784986846687
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) excel at linear reasoning tasks but remain underexplored on non-linear structures such as those found in natural debates, which are best expressed as argument graphs. We evaluate whether LLMs can approximate structured reasoning from Computational Argumentation Theory (CAT). Specifically, we use Quantitative Argumentation Debate (QuAD) semantics, which assigns acceptability scores to arguments based on their attack and support relations. Given only dialogue-formatted debates from two NoDE datasets, models are prompted to rank arguments without access to the underlying graph. We test several LLMs under advanced instruction strategies, including Chain-of-Thought and In-Context Learning. While models show moderate alignment with QuAD rankings, performance degrades with longer inputs or disrupted discourse flow. Advanced prompting helps mitigate these effects by reducing biases related to argument length and position. Our findings highlight both the promise and limitations of LLMs in modeling formal argumentation semantics and motivate future work on graph-aware reasoning.
- Abstract(参考訳): 大規模言語モデル (LLMs) は線形推論タスクでは優れるが、自然議論で見られるような非線形構造では未探索のままであり、議論グラフとして最もよく表される。
我々は,計算代数学理論 (CAT) から LLM が構造的推論を近似できるかどうかを評価する。
具体的には、アクセシビリティスコアを攻撃とサポートの関係に基づいて引数に割り当てるQuADセマンティクスを用いる。
2つのNoDEデータセットからの対話形式の議論のみを考えると、モデルは基礎となるグラフにアクセスせずに引数をランク付けするよう促される。
我々は,Chain-of-Thought や In-Context Learning など,先進的な指導戦略の下でいくつかの LLM をテストする。
モデルはQuADランキングと適度に一致しているが、より長い入力や混乱した談話の流れでパフォーマンスが低下する。
高度なプロンプトは、引数の長さと位置に関するバイアスを減らすことでこれらの効果を軽減するのに役立つ。
本研究は,形式的論証セマンティクスのモデル化におけるLLMの約束と限界の両立と,グラフ認識推論における今後の研究を動機づけるものである。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。
しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。
この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。
本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文 参考訳(メタデータ) (2025-01-14T05:18:20Z) - Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。
本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。
これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文 参考訳(メタデータ) (2024-12-19T18:51:30Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - "I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models [0.0]
議論的推論を行う2つの大規模言語モデル(LLM)の性能を評価する。
AM と APE では LLM のスコアが SOTA に匹敵するか上回っていることがわかった。
しかしながら、LLMの統計的解析は、小さいが、まだ可読である場合、I/O表現の変化は、モデルが推論を実行していないことを示している。
論文 参考訳(メタデータ) (2023-09-29T02:41:38Z) - AMPERSAND: Argument Mining for PERSuAsive oNline Discussions [41.06165177604387]
本稿では,オンライン議論フォーラムにおける議論マイニングのための計算モデルを提案する。
我々のアプローチは、議論スレッド内の引数のコンポーネント間の関係を識別することに依存します。
我々のモデルは最近の最先端のアプローチと比較して大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-30T10:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。