論文の概要: Exploring the Potential of Large Language Models in Computational
Argumentation
- arxiv url: http://arxiv.org/abs/2311.09022v1
- Date: Wed, 15 Nov 2023 15:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:31:22.370664
- Title: Exploring the Potential of Large Language Models in Computational
Argumentation
- Title(参考訳): 計算論における大規模言語モデルの可能性を探る
- Authors: Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing
- Abstract要約: 大規模言語モデル(LLM)は、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つのメインクラスに整理し、14のオープンソースデータセットのフォーマットを標準化します。
大規模な実験により、LLMはこれらのデータセットのほとんどにわたって可換な性能を示すことが示された。
- 参考スコア(独自算出の注目度): 59.926959119656416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational argumentation has become an essential tool in various fields,
including artificial intelligence, law, and public policy. It is an emerging
research field in natural language processing (NLP) that attracts increasing
attention. Research on computational argumentation mainly involves two types of
tasks: argument mining and argument generation. As large language models (LLMs)
have demonstrated strong abilities in understanding context and generating
natural language, it is worthwhile to evaluate the performance of LLMs on
various computational argumentation tasks. This work aims to embark on an
assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under
zero-shot and few-shot settings within the realm of computational
argumentation. We organize existing tasks into 6 main classes and standardise
the format of 14 open-sourced datasets. In addition, we present a new benchmark
dataset on counter speech generation, that aims to holistically evaluate the
end-to-end performance of LLMs on argument mining and argument generation.
Extensive experiments show that LLMs exhibit commendable performance across
most of these datasets, demonstrating their capabilities in the field of
argumentation. We also highlight the limitations in evaluating computational
argumentation and provide suggestions for future research directions in this
field.
- Abstract(参考訳): 計算的議論は、人工知能、法、公共政策など様々な分野において必須の道具となっている。
自然言語処理(NLP)における新たな研究分野であり、注目を集めている。
計算的議論の研究は、主に引数マイニングと引数生成の2つのタイプのタスクを含む。
大規模言語モデル (LLM) は文脈の理解と自然言語生成に強い能力を発揮しているため, 様々な計算議論タスクにおいて, LLMの性能を評価することは重要である。
本研究の目的は,ChatGPTモデルやFlanモデル,LLaMA2モデルなどのLLMを,ゼロショットおよび数ショット設定で計算議論の領域内で評価することである。
既存のタスクを6つのメインクラスに整理し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMの終端性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
大規模な実験により、LLMはこれらのデータセットのほとんどにまたがって高い性能を示し、議論の分野におけるそれらの能力を実証している。
また,計算的議論の評価における限界を強調し,この分野における今後の研究方向性について提案する。
関連論文リスト
- Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
LLMのほとんどの研究は英語に限られている。
これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文 参考訳(メタデータ) (2023-03-22T13:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。