Fugu-MT 論文翻訳(概要): Large Language Model Evaluation via Matrix Entropy

論文の概要: Large Language Model Evaluation via Matrix Entropy

arxiv url: http://arxiv.org/abs/2401.17139v1
Date: Tue, 30 Jan 2024 16:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 14:20:22.146662
Title: Large Language Model Evaluation via Matrix Entropy
Title（参考訳）: 行列エントロピーによる大規模言語モデルの評価
Authors: Lai Wei, Zhiquan Tan, Chenghai Li, Jindong Wang, Weiran Huang
Abstract要約: 大規模言語モデル(LLM)におけるデータ圧縮能力の定量化のための情報理論と幾何学原理に根ざした新しい計量である行列エントロピーを導入する。言語モデルの場合,表現の行列エントロピーは,モデルがスケールアップした場合のスケーリング法則型の縮小に従っており,従来の損失スケーリング法を補完する役割を果たしている。マルチモーダル設定では,行列エントロピーに基づくアライメント品質の評価手法も提案する。
参考スコア（独自算出の注目度）: 11.455818555226942
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have revolutionized the field of natural language processing, extending their strong capabilities into multi-modal domains. Thus, it is vital to define proper and diversified metrics for the evaluation of LLMs. In this paper, we introduce matrix entropy, a novel metric rooted in information theory and geometry principles to quantify the data compression proficiency in LLMs. It reflects the model's ability to extract relevant information and eliminate unnecessary elements, thereby providing insight into the language model's intrinsic capability. Specifically, we demonstrate its applicability in both single-modal (language) and multi-modal settings. For language models, our findings reveal that the matrix entropy of representations follows a scaling law type reduction when the model scales up, serving as a complement to the traditional loss scaling law. For the multi-modal setting, we also propose an evaluation method based on matrix entropy for assessing alignment quality and we find that modern large multi-modal models exhibit great alignment performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、その強力な能力をマルチモーダルドメインに拡張した。したがって, LLMの評価には適切な, 多様なメトリクスを定義することが不可欠である。本稿では,情報理論と幾何学原理に根ざした新しい計量である行列エントロピーを導入し,llmにおけるデータ圧縮能力の定量化を行う。モデルが関連する情報を抽出し、不要な要素を取り除く能力を反映し、言語モデルの本質的な能力に関する洞察を提供する。具体的には、シングルモーダル(言語)とマルチモーダルの両方で適用性を示す。言語モデルの場合,表現の行列エントロピーは,モデルがスケールアップした場合のスケーリング法則型の縮小に従っており,従来の損失スケーリング法を補完する役割を果たしている。マルチモーダル設定のために,アライメント品質を評価するための行列エントロピーに基づく評価手法を提案するとともに,現代の大規模マルチモーダルモデルはアライメント性能に優れることを示す。

関連論文リスト

Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文参考訳（メタデータ） (2025-06-16T17:59:08Z)
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文参考訳（メタデータ） (2025-02-16T22:54:44Z)
RAMQA: A Unified Framework for Retrieval-Augmented Multi-Modal Question Answering [9.915889321513678]
RAMQAは、学習からランクまでの手法と、生成的な置換によるランク付け技術を組み合わせた統一的なフレームワークである。生成的ランキングモデルでは,文書候補から再ランク付けされた文書IDと特定の回答を生成する。
論文参考訳（メタデータ） (2025-01-23T00:50:33Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。 MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文参考訳（メタデータ） (2024-10-29T15:07:23Z)
LLM-Rank: A Graph Theoretical Approach to Pruning Large Language Models [1.3108652488669736]
本稿では,グラフ理論からの集中度測定を利用した新しいプルーニング手法を提案し,これらのモデルの計算要求とメモリフットプリントの両方を削減した。さらに,デコーダのみのトランスモデルを拡張してLLMRankと呼ぶ。
論文参考訳（メタデータ） (2024-10-17T07:55:47Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文参考訳（メタデータ） (2024-10-04T09:50:45Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion [33.73671362609599]
私たちのフレームワークはPairRankerとGenFuserの2つのモジュールで構成されています。 PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。 GenFuserは、上位候補をマージし、改善されたアウトプットを生成することを目的としている。
論文参考訳（メタデータ） (2023-06-05T03:32:26Z)
Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文参考訳（メタデータ） (2020-10-23T18:57:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。