Fugu-MT 論文翻訳(概要): Exploring the Potential of Large Language Models in Computational Argumentation

論文の概要: Exploring the Potential of Large Language Models in Computational Argumentation

arxiv url: http://arxiv.org/abs/2311.09022v2
Date: Fri, 15 Mar 2024 10:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 23:12:35.493963
Title: Exploring the Potential of Large Language Models in Computational Argumentation
Title（参考訳）: 計算論における大規模言語モデルの可能性を探る
Authors: Guizhen Chen, Liying Cheng, Luu Anh Tuan, Lidong Bing,
Abstract要約: 計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
参考スコア（独自算出の注目度）: 54.85665903448207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computational argumentation has become an essential tool in various fields, including artificial intelligence, law, and public policy. It is an emerging research field in natural language processing that attracts increasing attention. Research on computational argumentation mainly involves two types of tasks: argument mining and argument generation. As large language models have demonstrated strong abilities in understanding context and generating natural language, it is worthwhile to evaluate the performance of LLMs on various computational argumentation tasks. This work aims to embark on an assessment of LLMs, such as ChatGPT, Flan models and LLaMA2 models, under zero-shot and few-shot settings within the realm of computational argumentation. We organize existing tasks into six main categories and standardise the format of fourteen open-sourced datasets. In addition, we present a new benchmark dataset on counter speech generation, that aims to holistically evaluate the end-to-end performance of LLMs on argument mining and argument generation. Extensive experiments show that LLMs exhibit commendable performance across most of these datasets, demonstrating their capabilities in the field of argumentation. Our analysis offers valuable suggestions for evaluating computational argumentation and its integration with LLMs in future research endeavors.
Abstract（参考訳）: 計算的議論は、人工知能、法律、公共政策など、様々な分野において欠かせない道具となっている。自然言語処理における新たな研究分野であり、注目を集めている。計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。大規模言語モデルは文脈の理解や自然言語の生成に強い能力を示してきたため、様々な計算的議論タスクにおいてLLMの性能を評価することには価値がある。本研究の目的は,ChatGPTモデルやFlanモデル,LLaMA2モデルなどのLLMを,ゼロショットおよび数ショット設定で計算議論の領域内で評価することである。既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。さらに,LLMの終端性能を議論マイニングと議論生成の両面から評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。大規模な実験により、LLMはこれらのデータセットのほとんどにまたがって高い性能を示し、議論の分野におけるそれらの能力を実証している。我々の分析は,今後の研究における計算論証の評価とLLMとの統合について,重要な提案を提供する。

関連論文リスト

An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。 CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。 Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文参考訳（メタデータ） (2025-07-07T15:34:05Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
ChatGPT or A Silent Everywhere Helper: A Survey of Large Language Models [0.0]
Chat Generative Pre-trained Transformer (ChatGPT)は、その高度な機能と広範なアプリケーションに対する顕著な例である。この調査は、ChatGPTの包括的な分析を提供し、アーキテクチャ、トレーニングプロセス、機能について調査する。
論文参考訳（メタデータ） (2025-03-19T22:55:08Z)
Argumentation Computation with Large Language Models : A Benchmark Study [6.0682923348298194]
大規模言語モデル(LLM)は、ニューロシンボリックコンピューティングにおいて大きな進歩を遂げた。我々は,様々な抽象的論証セマンティクスの拡張を決定する上でのLLMの能力を検討することを目的とする。
論文参考訳（メタデータ） (2024-12-21T18:23:06Z)
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文参考訳（メタデータ） (2024-07-17T11:26:47Z)
Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文参考訳（メタデータ） (2024-05-16T22:09:31Z)
Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文参考訳（メタデータ） (2024-02-24T14:01:07Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文参考訳（メタデータ） (2023-08-01T17:50:17Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 LLMのほとんどの研究は英語に限られている。これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文参考訳（メタデータ） (2023-03-22T13:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。