論文の概要: Understanding LLM Development Through Longitudinal Study: Insights from the Open Ko-LLM Leaderboard
- arxiv url: http://arxiv.org/abs/2409.03257v1
- Date: Thu, 5 Sep 2024 05:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:40:47.929942
- Title: Understanding LLM Development Through Longitudinal Study: Insights from the Open Ko-LLM Leaderboard
- Title(参考訳): 縦断的研究を通してLLM開発を理解する:オープンなKo-LLMリーダーボードから
- Authors: Chanjun Park, Hyeonwoo Kim,
- Abstract要約: 本稿では,Open Ko-LLM Leaderboardにおける先行研究の限界に対処するため,11ヶ月にわたる縦断的研究を行う。
分析期間を延長することで,韓国の大規模言語モデル(LLM)の発展過程をより包括的に理解することを目指す。
- 参考スコア(独自算出の注目度): 3.561525689225195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper conducts a longitudinal study over eleven months to address the limitations of prior research on the Open Ko-LLM Leaderboard, which have relied on empirical studies with restricted observation periods of only five months. By extending the analysis duration, we aim to provide a more comprehensive understanding of the progression in developing Korean large language models (LLMs). Our study is guided by three primary research questions: (1) What are the specific challenges in improving LLM performance across diverse tasks on the Open Ko-LLM Leaderboard over time? (2) How does model size impact task performance correlations across various benchmarks? (3) How have the patterns in leaderboard rankings shifted over time on the Open Ko-LLM Leaderboard?. By analyzing 1,769 models over this period, our research offers a comprehensive examination of the ongoing advancements in LLMs and the evolving nature of evaluation frameworks.
- Abstract(参考訳): 本論文は,観測期間を制限した実験的な研究に頼っていたOpen Ko-LLM Leaderboardの先行研究の限界に対処するため,11ヶ月にわたる縦断的研究を行った。
分析期間を延長することにより,韓国の大規模言語モデル(LLM)の進展をより包括的に理解することを目指す。
1) Open Ko-LLM Leaderboard の様々なタスクにおいて LLM のパフォーマンスを改善する上で,どのような課題があるのか?
2) モデルサイズは各種ベンチマークにおけるタスクパフォーマンスの相関にどのように影響しますか?
(3) Open Ko-LLM Leaderboardにおいて,リーダボードランキングのパターンは時間とともにどのように変化したか?
と。
この期間に1,769モデルを解析することにより,LLMの進展と評価フレームワークの進化の性質を総合的に検証する。
関連論文リスト
- Game Theory Meets Large Language Models: A Systematic Survey [18.07120579043073]
大規模言語モデル(LLM)の急速な進歩は、これらの2つの分野の交差を探索する広範な研究を引き起こしている。
本稿では,これらの分野の交点を包括的に調査し,三つの視点から双方向の関係を探求する。
この調査は、新たなAI能力で理論的な厳格さをブリッジすることで、学際的なコラボレーションを促進し、この進化する研究領域の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2025-02-13T08:08:27Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LLM4SR: A Survey on Large Language Models for Scientific Research [15.533076347375207]
大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。
本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
論文 参考訳(メタデータ) (2025-01-08T06:44:02Z) - What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration [59.855712519568904]
本稿では,MM-ICLの中核となる3つのステップについて検討する。
本研究は, 実演検索におけるマルチモーダルレトリバーの必要性と, 演目間注文よりも演目内注文が重要であることを明らかにする。
論文 参考訳(メタデータ) (2024-10-27T15:37:51Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。
これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。