論文の概要: PhyloLM : Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks
- arxiv url: http://arxiv.org/abs/2404.04671v3
- Date: Sun, 16 Jun 2024 14:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:07:34.962615
- Title: PhyloLM : Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks
- Title(参考訳): PhyloLM : 大規模言語モデルの系統推定とベンチマークにおける性能予測
- Authors: Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri,
- Abstract要約: 本稿では,Large Language Models(LLMs)に系統解析アルゴリズムを適用するPhyloLMを紹介する。
本手法は, LLMの出力の類似性に基づいて, 系統的距離の指標を算出する。
我々の系統的距離は標準ベンチマークの性能を予測し,その機能的妥当性を示す。
- 参考スコア(独自算出の注目度): 17.91379291654773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PhyloLM, a method adapting phylogenetic algorithms to Large Language Models (LLMs) to explore whether and how they relate to each other and to predict their performance characteristics. Our method calculates a phylogenetic distance metrics based on the similarity of LLMs' output. The resulting metric is then used to construct dendrograms, which satisfactorily capture known relationships across a set of 111 open-source and 45 closed models. Furthermore, our phylogenetic distance predicts performance in standard benchmarks, thus demonstrating its functional validity and paving the way for a time and cost-effective estimation of LLM capabilities. To sum up, by translating population genetic concepts to machine learning, we propose and validate a tool to evaluate LLM development, relationships and capabilities, even in the absence of transparent training information.
- Abstract(参考訳): 本稿では,系統解析アルゴリズムをLarge Language Models (LLMs) に適用し,それらの相互関係や性能特性の予測方法であるPhyloLMを紹介した。
本手法は, LLMの出力の類似性に基づいて, 系統的距離の指標を算出する。
結果として得られる計量はデンドログラムの構築に使われ、111個のオープンソースと45個のクローズドモデルからなる既知の関係を十分に捉えることができる。
さらに,我々の系統的距離は標準ベンチマークの性能を予測し,その機能的妥当性を実証し,LLM能力の時間的,費用対効果的な評価を行う。
要約すると, 集団遺伝概念を機械学習に翻訳することにより, 透明な学習情報がない場合でも, LLMの発達, 関係, 能力を評価するためのツールを提案し, 検証する。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
帰属的有理は帰属的有理数よりも人称有理数とよく一致していることを示す。
さらに,従来の研究で特定されたプロンプトベース手法の忠実度制限は,その崩壊予測と関係があることが示唆された。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models [0.0]
大規模言語モデル (LLM) はテキスト処理において例外的な性能を示した。
本稿では,ランダムフォレスト(RF)アンサンブルからの知識伝達を用いたLLMの学習手法を提案する。
我々は、細調整のためのアウトプットを生成し、その決定を分類し、説明するモデルの能力を高めます。
論文 参考訳(メタデータ) (2024-06-07T13:31:51Z) - CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。
我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。
提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文 参考訳(メタデータ) (2024-06-05T11:35:44Z) - Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - The Matrix: A Bayesian learning model for LLMs [1.169389391551085]
大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを提案する。
提案手法では,先行した多項遷移確率行列で表される理想的な生成テキストモデルを構築する。
埋め込みと多項分布の間の写像の連続性について議論し、ディリクレ近似定理を任意の事前に近似する。
論文 参考訳(メタデータ) (2024-02-05T16:42:10Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。