論文の概要: Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs
- arxiv url: http://arxiv.org/abs/2502.18791v2
- Date: Thu, 10 Apr 2025 19:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 15:34:41.537134
- Title: Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs
- Title(参考訳): LLMはLLMの展望を明らかにするのに役立つか?フロンティアLLMの大規模かつ進化的な文献分析
- Authors: Jungsoo Park, Junmo Kang, Gabriel Stanovsky, Alan Ritter,
- Abstract要約: 本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
- 参考スコア(独自算出の注目度): 32.48924329288906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The surge of LLM studies makes synthesizing their findings challenging. Analysis of experimental results from literature can uncover important trends across studies, but the time-consuming nature of manual data extraction limits its use. Our study presents a semi-automated approach for literature analysis that accelerates data extraction using LLMs. It automatically identifies relevant arXiv papers, extracts experimental results and related attributes, and organizes them into a structured dataset, LLMEvalDB. We then conduct an automated literature analysis of frontier LLMs, reducing the effort of paper surveying and data extraction by more than 93% compared to manual approaches. We validate LLMEvalDB by showing that it reproduces key findings from a recent manual analysis of Chain-of-Thought (CoT) reasoning and also uncovers new insights that go beyond it, showing, for example, that in-context examples benefit coding and multimodal tasks but offer limited gains in math reasoning tasks compared to zero-shot CoT. Our automatically updatable dataset enables continuous tracking of target models by extracting evaluation studies as new data becomes available. Through LLMEvalDB and empirical analysis, we provide insights into LLMs while facilitating ongoing literature analyses of their behavior.
- Abstract(参考訳): LLM研究の急増は、それらの発見を合成することを困難にしている。
文献による実験結果の分析は、研究全体の重要な傾向を明らかにすることができるが、手動データ抽出の時間的特性は、その使用を制限する。
LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
LLMEvalDBを検証したところ,近年のChain-of-Thought(CoT)推論を手動で解析した結果を再現すると同時に,その先にある新たな知見を明らかにし,例えば,コンテキスト内サンプルがコーディングやマルチモーダルタスクに有効であるが,ゼロショットのCoTに比べて数学推論タスクの利得は限定的であることを示す。
我々の自動更新データセットは、新しいデータが利用可能になると評価研究を抽出し、ターゲットモデルの連続的な追跡を可能にする。
LLMEvalDBと経験分析を通じて,LLMに関する知見を提供しながら,その行動に関する文献分析を円滑に進める。
関連論文リスト
- LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - Flowco: Rethinking Data Analysis in the Age of LLMs [2.1874189959020427]
大規模言語モデル(LLM)は、単純なルーチン解析のためにそのようなコードを生成することができるようになった。
LLMは、限られたプログラミングの専門知識を持つ者がデータ分析を行うことで、データサイエンスの民主化を約束する。
多くの実世界のアナリストは、特定の分析手順をきめ細かな制御をしなければならない。
本稿では,これらの課題に対処する新たな混合開始システムであるFlowcoを紹介する。
論文 参考訳(メタデータ) (2025-04-18T19:01:27Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Extract Information from Hybrid Long Documents Leveraging LLMs: A Framework and Dataset [52.286323454512996]
大規模言語モデル(LLM)は、テキストと表のデータを含むハイブリッドテキストを理解し解析することができる。
本研究では,LLMがHLD(Hybrid Long Document)を処理できるようにするための自動情報抽出フレームワーク(AIE)を提案し,HLDからの情報抽出の4つの重要な側面を分析する実験を行った。
HLDにおけるデータセット不足の問題に対処し、今後の作業を支援するために、金融レポート数値抽出(FINE)データセットを提案する。
論文 参考訳(メタデータ) (2024-12-28T07:54:14Z) - MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks [0.0]
我々は,Multi-Insight Multi-Document extract (MIMDE)タスクのセットを定義する。
この課題は、調査回答の分析から医療記録の処理に至るまで、多くの実践的応用に欠かせないものである。
そこで本研究では, 合成データの可能性を検討するために, 補完的な人間と合成データセットを新たに導入する。
論文 参考訳(メタデータ) (2024-11-29T13:24:10Z) - Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。
ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T20:18:57Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs [31.16117964915814]
訓練済みまたは微調整済みのモデルに格納された特定のデータを消去しようとする機械学習は、LLMにとって重要な保護措置として登場した。
構造的アンラーニング手法の開発を容易にするため,マルチシナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。
Llama2-7BモデルとMistral-7Bモデルの両方で4つの異なる未学習手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Expanding Horizons in HCI Research Through LLM-Driven Qualitative
Analysis [3.5253513747455303]
大規模言語モデル(LLM)を用いたHCIにおける定性解析の新しいアプローチを提案する。
以上の結果から,LSMは従来の解析手法と一致しただけでなく,ユニークな知見も得られることが示唆された。
論文 参考訳(メタデータ) (2024-01-07T12:39:31Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Meta-learning framework with applications to zero-shot time-series
forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。
残余接続はメタラーニング適応機構として機能する。
我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文 参考訳(メタデータ) (2020-02-07T16:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。