論文の概要: ArgBench: Benchmarking LLMs on Computational Argumentation Tasks
- arxiv url: http://arxiv.org/abs/2604.17366v1
- Date: Sun, 19 Apr 2026 10:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.489008
- Title: ArgBench: Benchmarking LLMs on Computational Argumentation Tasks
- Title(参考訳): ArgBench: 計算引数タスクに関するLLMのベンチマーク
- Authors: Yamen Ajjour, Carlotta Quensel, Nedim Lipka, Henning Wachsmuth,
- Abstract要約: 大言語モデル(LLMs)にとって、議論スキルは必須のツールキットである
計算議論に対する LLM ベースのアプローチの標準化評価のための最初のベンチマークを作成する。
- 参考スコア(独自算出の注目度): 25.924152913253902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Argumentation skills are an essential toolkit for large language models (LLMs). These skills are crucial in various use cases, including self-reflection, debating collaboratively for diverse answers, and countering hate speech. In this paper, we create the first benchmark for a standardized evaluation of LLM-based approaches to computational argumentation, encompassing 33 datasets from previous work in unified form. Using the benchmark, we evaluate the generalizability of five LLM families across 46 computational argumentation tasks that cover mining arguments, assessing perspectives, assessing argument quality, reasoning about arguments, and generating arguments. On the benchmark, we conduct an extensive systematic analysis of the contribution of few-shot examples, reasoning steps, model size, and training skills to the performance of LLMs on the computational argumentation tasks in the benchmark.
- Abstract(参考訳): argumentation skillsは、大規模言語モデル(LLM)に不可欠なツールキットである。
これらのスキルは、自己回帰、多様な回答を共同で議論すること、ヘイトスピーチに対抗することなど、さまざまなユースケースにおいて不可欠である。
本稿では,従来の研究から得られた33個のデータセットを統一形式で含む,計算議論へのLCMベースのアプローチの標準化評価のための最初のベンチマークを作成する。
このベンチマークを用いて、46の計算議論タスクにまたがる5つのLLMファミリーの一般化可能性を評価し、マイニングの議論をカバーし、視点を評価し、議論の質を評価し、議論について推論し、議論を生成する。
ベンチマークでは,数ショットの例,推論ステップ,モデルサイズ,トレーニングスキルが,ベンチマークにおける計算議論タスクにおけるLLMのパフォーマンスに与える影響を,広範囲に体系的に分析する。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Argument Summarization and its Evaluation in the Era of Large Language Models [21.212217094789647]
大規模言語モデル(LLM)は様々な自然言語生成(NLG)タスクに革命をもたらした。
本稿では、ArgSumシステムへの最先端LCMの統合とその評価について検討する。
論文 参考訳(メタデータ) (2025-03-02T10:49:10Z) - Argumentation Computation with Large Language Models : A Benchmark Study [6.0682923348298194]
大規模言語モデル(LLM)は、ニューロシンボリックコンピューティングにおいて大きな進歩を遂げた。
我々は,様々な抽象的論証セマンティクスの拡張を決定する上でのLLMの能力を検討することを目的とする。
論文 参考訳(メタデータ) (2024-12-21T18:23:06Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。