論文の概要: LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.19240v1
- Date: Sun, 25 May 2025 17:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.998558
- Title: LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models
- Title(参考訳): LLLMs: 大規模言語モデルの限界に関する進化研究に関するデータ駆動調査
- Authors: Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger,
- Abstract要約: 我々は,2022年から2024年までの大規模言語モデルの限界について,データ駆動半自動レビューを実施している。
キーワードフィルタリング, LLMに基づく分類, 専門家ラベルに対する検証, トピッククラスタリングを用いて, 14,648の関連論文を同定した。
2022年以降、LLLMの研究はより速く成長し、2024年末までに LLM の論文の30%以上に達した。
- 参考スコア(独自算出の注目度): 15.588997848081046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) research has grown rapidly, along with increasing concern about their limitations such as failures in reasoning, hallucinations, and limited multilingual capability. In this survey, we conduct a data-driven, semi-automated review of research on limitations of LLM (LLLMs) from 2022 to 2024 using a bottom-up approach. From a corpus of 250,000 ACL and arXiv papers, we identify 14,648 relevant papers using keyword filtering, LLM-based classification, validated against expert labels, and topic clustering (via two approaches, HDBSCAN+BERTopic and LlooM). We find that LLM-related research increases over fivefold in ACL and fourfold in arXiv. Since 2022, LLLMs research grows even faster, reaching over 30% of LLM papers by late 2024. Reasoning remains the most studied limitation, followed by generalization, hallucination, bias, and security. The distribution of topics in the ACL dataset stays relatively stable over time, while arXiv shifts toward safety and controllability (with topics like security risks, alignment, hallucinations, knowledge editing), and multimodality between 2022 and 2024. We release a dataset of annotated abstracts and a validated methodology, and offer a quantitative view of trends in LLM limitations research.
- Abstract(参考訳): 大規模言語モデル(LLM)の研究は急速に成長し、推論の失敗や幻覚、多言語能力の制限といった制限に対する懸念が高まっている。
本研究では,2022年から2024年までのLLM(LLLM)の限界について,ボトムアップ手法を用いてデータ駆動半自動レビューを行う。
ACLとarXivのコーパスから,キーワードフィルタリング,LSMに基づく分類,専門家ラベルに対する検証,トピッククラスタリング(HDBSCAN+BERTopicとLlooMの2つのアプローチ)を用いて,14,648の関連論文を同定した。
LLM関連の研究は、ACLでは5倍、arXivでは4倍に増加する。
2022年以降、LLLMの研究はより速く成長し、2024年末までに LLM の論文の30%以上に達した。
推論は依然として最も研究されている制限であり、その後に一般化、幻覚、偏見、セキュリティが続く。
ACLデータセット内のトピックの分布は、時間とともに比較的安定しているが、arXivは、セキュリティリスク、アライメント、幻覚、知識編集といったトピックを含む)安全性とコントロール性、2022年から2024年にかけてのマルチモダリティに移行している。
注釈付き抽象化のデータセットと検証された方法論を公開し、LLM制限研究におけるトレンドの定量的ビューを提供する。
関連論文リスト
- ArxivBench: Can LLMs Assist Researchers in Conducting Research? [6.586119023242877]
大規模言語モデル(LLM)は、推論、翻訳、質問応答といった様々なタスクを完了させる際、顕著な効果を示した。
本研究では,オープンソース LLM とプロプライエタリ LLM を,関連する研究論文に回答する能力と,arXiv プラットフォーム上でホストされている記事への正確なリンクについて評価する。
対象者によっては, LLM生成反応の関連性は認められず, 被験者によっては, 他者よりも有意に低い結果が得られた。
論文 参考訳(メタデータ) (2025-04-06T05:00:10Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers [8.076841611508488]
本稿では,研究論文におけるSLG(Suggestive Limitation Generation)の新たな課題について紹介する。
我々は textbftextitLimGen というデータセットをコンパイルし、4068 の研究論文とそれに関連する ACL アンソロジーの制限を包含する。
論文 参考訳(メタデータ) (2024-03-22T17:31:43Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - NLLG Quarterly arXiv Report 06/23: What are the most influential current
AI Papers? [15.830129136642755]
目的は、最も関連性があり広く議論されている研究のクイックガイドを提供することであり、新参者や確立された研究者が現在の傾向を振り返り続けるのを助けることである。
我々は2023年前半に,大規模言語モデル(LLM),特にChatGPTに関連する論文の優位性を観察した。
NLP関連の論文は、私たちのデータにはML関連の論文の2倍の数の論文があるにもかかわらず、最も影響力がある(トップ論文の約60%)。
論文 参考訳(メタデータ) (2023-07-31T11:53:52Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。