論文の概要: Exploring the Potential of Large Language Models in Computational
Argumentation
- arxiv url: http://arxiv.org/abs/2311.09022v1
- Date: Wed, 15 Nov 2023 15:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:31:22.370664
- Title: Exploring the Potential of Large Language Models in Computational
Argumentation
- Title(参考訳): 計算論における大規模言語モデルの可能性を探る
- Authors: Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing
- Abstract要約: 大規模言語モデル(LLM)は、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つのメインクラスに整理し、14のオープンソースデータセットのフォーマットを標準化します。
大規模な実験により、LLMはこれらのデータセットのほとんどにわたって可換な性能を示すことが示された。
- 参考スコア(独自算出の注目度): 59.926959119656416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational argumentation has become an essential tool in various fields,
including artificial intelligence, law, and public policy. It is an emerging
research field in natural language processing (NLP) that attracts increasing
attention. Research on computational argumentation mainly involves two types of
tasks: argument mining and argument generation. As large language models (LLMs)
have demonstrated strong abilities in understanding context and generating
natural language, it is worthwhile to evaluate the performance of LLMs on
various computational argumentation tasks. This work aims to embark on an
assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under
zero-shot and few-shot settings within the realm of computational
argumentation. We organize existing tasks into 6 main classes and standardise
the format of 14 open-sourced datasets. In addition, we present a new benchmark
dataset on counter speech generation, that aims to holistically evaluate the
end-to-end performance of LLMs on argument mining and argument generation.
Extensive experiments show that LLMs exhibit commendable performance across
most of these datasets, demonstrating their capabilities in the field of
argumentation. We also highlight the limitations in evaluating computational
argumentation and provide suggestions for future research directions in this
field.
- Abstract(参考訳): 計算的議論は、人工知能、法、公共政策など様々な分野において必須の道具となっている。
自然言語処理(NLP)における新たな研究分野であり、注目を集めている。
計算的議論の研究は、主に引数マイニングと引数生成の2つのタイプのタスクを含む。
大規模言語モデル (LLM) は文脈の理解と自然言語生成に強い能力を発揮しているため, 様々な計算議論タスクにおいて, LLMの性能を評価することは重要である。
本研究の目的は,ChatGPTモデルやFlanモデル,LLaMA2モデルなどのLLMを,ゼロショットおよび数ショット設定で計算議論の領域内で評価することである。
既存のタスクを6つのメインクラスに整理し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMの終端性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
大規模な実験により、LLMはこれらのデータセットのほとんどにまたがって高い性能を示し、議論の分野におけるそれらの能力を実証している。
また,計算的議論の評価における限界を強調し,この分野における今後の研究方向性について提案する。
関連論文リスト
- Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
LLMのほとんどの研究は英語に限られている。
これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文 参考訳(メタデータ) (2023-03-22T13:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。