論文の概要: Text Analytics Evaluation Framework: A Case Study on LLMs and Social Media
- arxiv url: http://arxiv.org/abs/2605.21338v1
- Date: Wed, 20 May 2026 16:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.769386
- Title: Text Analytics Evaluation Framework: A Case Study on LLMs and Social Media
- Title(参考訳): テキスト分析評価フレームワーク : LLMとソーシャルメディアを事例として
- Authors: Yuefeng Shi, Nedjma Ousidhoum, Jose Camacho-Collados,
- Abstract要約: 質問に基づく評価フレームワークを導入する。
さまざまなNLPをカバーするさまざまなTwitterデータセットにベンチマークを適用した。
感情分析、ヘイトスピーチ検出、感情認識などのタスク。
この結果から,入力スケールとデータソースの複雑さに大きく依存していることが判明した。
- 参考スコア(独自算出の注目度): 4.065252374657746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have demonstrated exceptional proficiency in a wide range of NLP tasks. However, a notable gap remains in practical data analysis scenarios, particularly when LLMs are required to process long sequences of unstructured documents, such as news feeds or, as specifically addressed in this paper, social media posts. To empirically assess the effectiveness of LLMs in this setting, we introduce a question-based evaluation framework comprising 470 manually curated questions designed to evaluate LLMs' semantic understanding and reasoning abilities over aggregated text data. We apply our benchmark on diverse Twitter datasets covering various NLP tasks, including sentiment analysis, hate speech detection, and emotion recognition. Our results reveal that the performance depends heavily on input scale and the complexity of the data sources, declining noticeably in multi-label or target-dependent scenarios. In addition, as task complexity increases, performance drops progressively from basic semantic existence identification to more demanding operations such as comparison, counting, and calculation. Furthermore, as the input size grows beyond 500 instances, we identify a common limitation across LLMs, particularly Open-weights models: performance degrades substantially, especially on numerical tasks. These findings highlight critical architectural bottlenecks in current LLMs for performing rigorous quantitative analysis over large text collections.
- Abstract(参考訳): LLMは幅広いNLPタスクにおいて例外的な熟練度を示した。
しかし、特にLLMがニュースフィードなどの非構造化文書の長いシーケンスを処理する必要がある場合、特にソーシャルメディア投稿において顕著なギャップが残っている。
この設定におけるLLMの有効性を実証的に評価するために、集約されたテキストデータに対するLLMの意味的理解と推論能力を評価するために、手作業による470の質問からなる質問ベース評価フレームワークを導入する。
我々は、感情分析、ヘイトスピーチ検出、感情認識など、さまざまなNLPタスクをカバーする多様なTwitterデータセットにベンチマークを適用した。
以上の結果から,入力スケールやデータソースの複雑さに大きく依存することが明らかとなり,マルチラベルやターゲット依存のシナリオでは顕著に低下することがわかった。
さらに、タスクの複雑さが増大するにつれて、基本的な意味的存在の識別から、比較、カウント、計算といったより要求の多い操作へと、パフォーマンスが徐々に低下する。
さらに、入力サイズが500を超えると、LLM、特にOpen-weightsモデルに共通する制限が特定される。
これらの知見は、大規模テキストコレクション上で厳密な定量的分析を行うために、現在のLLMにおける重要なアーキテクチャ上のボトルネックを浮き彫りにしている。
関連論文リスト
- Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - An Evaluation of Large Language Models on Text Summarization Tasks Using Prompt Engineering Techniques [0.0]
大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を持って、自然言語処理の進歩を続けている。
CNN/Daily MailとNewsRoom(ニューズ)、SAMSum(ダイアログ)、ArXiv(サイエンティフィック)の4つのデータセットにまたがる6つのLCMを体系的に評価する。
本研究では,ROUGEとBERTScoreの測定値を用いて評価を行った。
Longドキュメントには、短いコンテキストウィンドウを持つLLMが複数の段階で拡張入力を要約できる文ベースのチャンキング戦略が導入されている。
論文 参考訳(メタデータ) (2025-07-07T15:34:05Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models for Software Engineering: A Systematic Literature Review [34.12458948051519]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)を含む多くの領域に大きな影響を与えている。
我々は、2017年1月から2024年1月までの395件の研究論文を選定、分析し、4つの重要な研究質問(RQ)に答える。
これらのRQに対する回答から、現在の最先端とトレンド、既存の研究のギャップの特定、今後の研究に向けた有望な領域のフラグ付けなどについて論じる。
論文 参考訳(メタデータ) (2023-08-21T10:37:49Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。