Fugu-MT 論文翻訳(概要): Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks

論文の概要: Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks

arxiv url: http://arxiv.org/abs/2404.04671v1
Date: Sat, 6 Apr 2024 16:16:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 20:09:57.350720
Title: Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks
Title（参考訳）: 大規模言語モデルの系統推定とベンチマークにおける性能予測
Authors: Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri,
Abstract要約: 本稿では,系統解析アルゴリズムを大規模言語モデルに適用したPhyloLMを提案する。本研究は, 系統距離測定を用いて, 異なるLLMファミリーを良好に捕捉するデンドログラムを構築した。このアプローチは遺伝的概念を機械学習に翻訳し、LSMの開発、関係、能力を予測するツールを提供する。
参考スコア（独自算出の注目度）: 17.91379291654773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces PhyloLM, a method applying phylogenetic algorithms to Large Language Models to explore their finetuning relationships, and predict their performance characteristics. By leveraging the phylogenetic distance metric, we construct dendrograms, which satisfactorily capture distinct LLM families (across a set of 77 open-source and 22 closed models). Furthermore, phylogenetic distance predicts performances in benchmarks (we test MMLU and ARC), thus enabling a time and cost-effective estimation of LLM capabilities. The approach translates genetic concepts to machine learning, offering tools to infer LLM development, relationships, and capabilities, even in the absence of transparent training information.
Abstract（参考訳）: 本稿では,系統解析アルゴリズムを大規模言語モデルに適用し,それらの微調整関係を探索し,その性能特性を予測するPhyloLMを提案する。系統的距離測定を利用して、異なるLLMファミリー(77のオープンソースモデルと22のクローズドモデルを含む)を良好に捕捉するデンドログラムを構築する。さらに、系統的距離はベンチマークの性能を予測し(MMLUとARCをテストする)、LLMの能力の時間的・費用的評価を可能にする。このアプローチは遺伝的概念を機械学習に翻訳し、透明なトレーニング情報がない場合でも、LCMの開発、関係、能力を予測するツールを提供する。

関連論文リスト

Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。以上の結果とLLMで観察された病理行動との関連性を検討した。最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文参考訳（メタデータ） (2024-10-03T17:45:31Z)
A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。 ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T17:46:18Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models [0.0]
大規模言語モデル (LLM) はテキスト処理において例外的な性能を示した。本稿では,ランダムフォレスト(RF)アンサンブルからの知識伝達を用いたLLMの学習手法を提案する。我々は、細調整のためのアウトプットを生成し、その決定を分類し、説明するモデルの能力を高めます。
論文参考訳（メタデータ） (2024-06-07T13:31:51Z)
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文参考訳（メタデータ） (2024-06-05T11:35:44Z)
Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。 LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文参考訳（メタデータ） (2024-02-29T14:06:34Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。