論文の概要: Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17139v2
- Date: Mon, 14 Oct 2024 04:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:28.185313
- Title: Diff-eRank: A Novel Rank-Based Metric for Evaluating Large Language Models
- Title(参考訳): Diff-eRank: 大規模言語モデルを評価するための新しいランクベースのメトリクス
- Authors: Lai Wei, Zhiquan Tan, Chenghai Li, Jindong Wang, Weiran Huang,
- Abstract要約: 情報理論と幾何原理を基礎としたランクベースの計量 Diff-eRank を導入する。
言語モデルでは,Diff-eRankはモデルサイズとともに増加し,損失や精度といった従来の指標と相関することを示す。
本手法では,eRankに基づくアライメント評価手法を提案し,同時代のマルチモーダルLLMがアライメント性能が高いことを示す。
- 参考スコア(独自算出の注目度): 10.677971531050611
- License:
- Abstract: Large Language Models (LLMs) have transformed natural language processing and extended their powerful capabilities to multi-modal domains. As LLMs continue to advance, it is crucial to develop diverse and appropriate metrics for their evaluation. In this paper, we introduce a novel rank-based metric, Diff-eRank, grounded in information theory and geometry principles. Diff-eRank assesses LLMs by analyzing their hidden representations, providing a quantitative measure of how efficiently they eliminate redundant information during training. We demonstrate the applicability of Diff-eRank in both single-modal (e.g., language) and multi-modal settings. For language models, our results show that Diff-eRank increases with model size and correlates well with conventional metrics such as loss and accuracy. In the multi-modal context, we propose an alignment evaluation method based on the eRank, and verify that contemporary multi-modal LLMs exhibit strong alignment performance based on our method. Our code is publicly available at https://github.com/waltonfuture/Diff-eRank.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理を変換し、その強力な能力をマルチモーダルドメインに拡張した。
LLMの進歩が進むにつれて、評価のための多様かつ適切なメトリクスを開発することが不可欠である。
本稿では,情報理論と幾何原理を基礎とした新しい階数基準Diff-eRankを紹介する。
Diff-eRankは、隠れた表現を分析してLCMを評価し、トレーニング中に冗長な情報をどれだけ効率的に除去するかを定量的に測定する。
Diff-eRankは,単一モーダル(例えば,言語)と多モーダル設定の両方で適用可能であることを示す。
言語モデルでは,Diff-eRankはモデルサイズとともに増加し,損失や精度といった従来の指標と相関することを示す。
本手法では,eRankに基づくアライメント評価手法を提案し,同時代のマルチモーダルLLMがアライメント性能が高いことを示す。
私たちのコードはhttps://github.com/waltonfuture/Diff-eRank.comで公開されています。
関連論文リスト
- CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。
我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文 参考訳(メタデータ) (2025-02-16T22:54:44Z) - RAMQA: A Unified Framework for Retrieval-Augmented Multi-Modal Question Answering [9.915889321513678]
RAMQAは、学習からランクまでの手法と、生成的な置換によるランク付け技術を組み合わせた統一的なフレームワークである。
生成的ランキングモデルでは,文書候補から再ランク付けされた文書IDと特定の回答を生成する。
論文 参考訳(メタデータ) (2025-01-23T00:50:33Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - LLM-Rank: A Graph Theoretical Approach to Pruning Large Language Models [1.3108652488669736]
本稿では,グラフ理論からの集中度測定を利用した新しいプルーニング手法を提案し,これらのモデルの計算要求とメモリフットプリントの両方を削減した。
さらに,デコーダのみのトランスモデルを拡張してLLMRankと呼ぶ。
論文 参考訳(メタデータ) (2024-10-17T07:55:47Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。