論文の概要: Exploring the Potential of Large Language Models in Computational Argumentation
- arxiv url: http://arxiv.org/abs/2311.09022v2
- Date: Fri, 15 Mar 2024 10:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 23:12:35.493963
- Title: Exploring the Potential of Large Language Models in Computational Argumentation
- Title(参考訳): 計算論における大規模言語モデルの可能性を探る
- Authors: Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing,
- Abstract要約: 計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 54.85665903448207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational argumentation has become an essential tool in various fields, including artificial intelligence, law, and public policy. It is an emerging research field in natural language processing that attracts increasing attention. Research on computational argumentation mainly involves two types of tasks: argument mining and argument generation. As large language models have demonstrated strong abilities in understanding context and generating natural language, it is worthwhile to evaluate the performance of LLMs on various computational argumentation tasks. This work aims to embark on an assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under zero-shot and few-shot settings within the realm of computational argumentation. We organize existing tasks into six main categories and standardise the format of fourteen open-sourced datasets. In addition, we present a new benchmark dataset on counter speech generation, that aims to holistically evaluate the end-to-end performance of LLMs on argument mining and argument generation. Extensive experiments show that LLMs exhibit commendable performance across most of these datasets, demonstrating their capabilities in the field of argumentation. Our analysis offers valuable suggestions for evaluating computational argumentation and its integration with LLMs in future research endeavors.
- Abstract(参考訳): 計算的議論は、人工知能、法律、公共政策など、様々な分野において欠かせない道具となっている。
自然言語処理における新たな研究分野であり、注目を集めている。
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは文脈の理解や自然言語の生成に強い能力を示してきたため、様々な計算的議論タスクにおいてLLMの性能を評価することには価値がある。
本研究の目的は,ChatGPTモデルやFlanモデル,LLaMA2モデルなどのLLMを,ゼロショットおよび数ショット設定で計算議論の領域内で評価することである。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMの終端性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
大規模な実験により、LLMはこれらのデータセットのほとんどにまたがって高い性能を示し、議論の分野におけるそれらの能力を実証している。
我々の分析は,今後の研究における計算論証の評価とLLMとの統合について,重要な提案を提供する。
関連論文リスト
- Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
LLMのほとんどの研究は英語に限られている。
これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文 参考訳(メタデータ) (2023-03-22T13:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。