論文の概要: Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17139v2
- Date: Mon, 14 Oct 2024 04:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:28.185313
- Title: Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
- Title(参考訳): Diff-eRank: 大規模言語モデルを評価するための新しいランクベースのメトリクス
- Authors: Lai Wei, Zhiquan Tan, Chenghai Li, Jindong Wang, Weiran Huang,
- Abstract要約: 情報理論と幾何原理を基礎としたランクベースの計量 Diff-eRank を導入する。
言語モデルでは,Diff-eRankはモデルサイズとともに増加し,損失や精度といった従来の指標と相関することを示す。
本手法では,eRankに基づくアライメント評価手法を提案し,同時代のマルチモーダルLLMがアライメント性能が高いことを示す。
- 参考スコア(独自算出の注目度): 10.677971531050611
- License:
- Abstract: Large Language Models (LLMs) have transformed natural language processing and extended their powerful capabilities to multi-modal domains. As LLMs continue to advance, it is crucial to develop diverse and appropriate metrics for their evaluation. In this paper, we introduce a novel rank-based metric, Diff-eRank, grounded in information theory and geometry principles. Diff-eRank assesses LLMs by analyzing their hidden representations, providing a quantitative measure of how efficiently they eliminate redundant information during training. We demonstrate the applicability of Diff-eRank in both single-modal (e.g., language) and multi-modal settings. For language models, our results show that Diff-eRank increases with model size and correlates well with conventional metrics such as loss and accuracy. In the multi-modal context, we propose an alignment evaluation method based on the eRank, and verify that contemporary multi-modal LLMs exhibit strong alignment performance based on our method. Our code is publicly available at https://github.com/waltonfuture/Diff-eRank.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理を変換し、その強力な能力をマルチモーダルドメインに拡張した。
LLMの進歩が進むにつれて、評価のための多様かつ適切なメトリクスを開発することが不可欠である。
本稿では,情報理論と幾何原理を基礎とした新しい階数基準Diff-eRankを紹介する。
Diff-eRankは、隠れた表現を分析してLCMを評価し、トレーニング中に冗長な情報をどれだけ効率的に除去するかを定量的に測定する。
Diff-eRankは,単一モーダル(例えば,言語)と多モーダル設定の両方で適用可能であることを示す。
言語モデルでは,Diff-eRankはモデルサイズとともに増加し,損失や精度といった従来の指標と相関することを示す。
本手法では,eRankに基づくアライメント評価手法を提案し,同時代のマルチモーダルLLMがアライメント性能が高いことを示す。
私たちのコードはhttps://github.com/waltonfuture/Diff-eRank.comで公開されています。
関連論文リスト
- Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models [0.0]
言語モデルが生成する大きなテキストの難易度は,トークン分布の平均エントロピーに収束しなければならないことを示す。
この作業は、AI検出の理解と改善のための実践的な応用を可能にする。
論文 参考訳(メタデータ) (2024-05-22T16:23:40Z) - Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。