論文の概要: LLMs for Argument Mining: Detection, Extraction, and Relationship Classification of pre-defined Arguments in Online Comments
- arxiv url: http://arxiv.org/abs/2505.22956v1
- Date: Thu, 29 May 2025 00:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.595649
- Title: LLMs for Argument Mining: Detection, Extraction, and Relationship Classification of pre-defined Arguments in Online Comments
- Title(参考訳): 論証マイニングのためのLLM:オンラインコメントにおけるあらかじめ定義された論証の検出・抽出・関連分類
- Authors: Matteo Guida, Yulia Otmakhova, Eduard Hovy, Lea Frermann,
- Abstract要約: 我々は,3つの引数マイニングタスクに基づいて,最先端の大規模言語モデル(LLM)を4つ評価する。
定量的評価は、3つのタスクにまたがる全体的なパフォーマンスを示している。
詳細な誤り分析により、長文とニュアンスのあるコメントと感情に満ちた言語に、体系的な欠点が示された。
- 参考スコア(独自算出の注目度): 11.976321200958262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated large-scale analysis of public discussions around contested issues like abortion requires detecting and understanding the use of arguments. While Large Language Models (LLMs) have shown promise in language processing tasks, their performance in mining topic-specific, pre-defined arguments in online comments remains underexplored. We evaluate four state-of-the-art LLMs on three argument mining tasks using datasets comprising over 2,000 opinion comments across six polarizing topics. Quantitative evaluation suggests an overall strong performance across the three tasks, especially for large and fine-tuned LLMs, albeit at a significant environmental cost. However, a detailed error analysis revealed systematic shortcomings on long and nuanced comments and emotionally charged language, raising concerns for downstream applications like content moderation or opinion analysis. Our results highlight both the promise and current limitations of LLMs for automated argument analysis in online comments.
- Abstract(参考訳): 妊娠中絶などの問題に関する公開議論の大規模分析を自動化するには、議論の検出と理解が必要である。
大きな言語モデル(LLM)は、言語処理タスクにおいて有望であるが、オンラインコメントにおけるトピック固有の事前定義された議論をマイニングする際のパフォーマンスは、まだ未定である。
我々は6つの偏光トピックに2,000以上の意見コメントからなるデータセットを用いて、3つの引数マイニングタスクについて、最先端のLLMを4つ評価した。
定量的評価は,3つの課題,特に大規模かつ微調整のLLMにおいて,環境コストが著しく高いにもかかわらず,全体的な性能が示唆された。
しかし、詳細なエラー分析により、長文でニュアンスのあるコメントや感情的に充電された言語に、体系的な欠点があることが判明し、コンテンツモデレーションや意見分析といった下流アプリケーションに対する懸念が高まった。
本結果は,オンラインコメントにおける自動引数解析におけるLLMの約束と現在の制限の両方を強調した。
関連論文リスト
- Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism [62.571419297164645]
本稿では,分類的シロジズムを解析するための大規模言語モデルの論理的推論能力に関する先行研究を体系的に概説する。
まず、純粋に論理的な観点から分類的シロジズムの可能なバリエーションについて検討する。
次に、既存のデータセットでテストされた基本的な設定(ムードとフィギュア)を調べます。
論文 参考訳(メタデータ) (2024-06-26T21:17:20Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Can Large Language Models Identify Authorship? [16.35265384114857]
大規模言語モデル(LLM)は、推論と問題解決の特別な能力を示している。
1) LLM はゼロショット・エンド・ツー・エンドのオーサシップ検証を効果的に行うことができるか?
2) LLM は,複数の候補作家(例えば,10,20)の著者を正確に帰属させることができるか?
論文 参考訳(メタデータ) (2024-03-13T03:22:02Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。