論文の概要: Coordinates of Capability: A Unified MTMM-Geometric Framework for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2605.08522v2
- Date: Thu, 14 May 2026 09:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.850484
- Title: Coordinates of Capability: A Unified MTMM-Geometric Framework for LLM Evaluation
- Title(参考訳): 能力のコーディネート:LLM評価のための統一MTMM幾何フレームワーク
- Authors: Adib Sakhawat, Tahsin Islam, Takia Farhin, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan,
- Abstract要約: 本稿では,Large Language Models (LLMs) 評価のための汎用多言語多手法(MTMM)フレームワークを提案する。
パラフレーズ不安定度,ドリフトスコア,オーバートン幅,プラナリズムスコアの9つの評価指標を定式化し,共有潜在座標空間内の幾何的測度として解釈する。
タスク非関連摂動を真の能力の範囲から体系的に分離することにより、このフレームワークは、堅牢で経験的に安定したベンチマーク設計のために理論的に基礎とドメインに依存しない分類を提供する。
- 参考スコア(独自算出の注目度): 2.464003792743989
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The evaluation of Large Language Models (LLMs) faces a critical challenge in construct validity, where fragmented benchmarks and ad hoc metrics frequently conflate method variance, such as prompt sensitivity, with true latent capabilities. Concurrently, emerging research suggests that LLM capabilities and outputs can be modeled as continuous geometric manifolds. In this Systematization of Knowledge (SoK), we bridge these paradigms by proposing a generalized Multi-Trait Multi-Method (MTMM) framework for LLM evaluation. We formalize and unify nine evaluation metrics, including Paraphrase Instability, Drift Score, Overton Width, and Pluralism Score, interpreting them not as isolated scalar values but as geometric measurements within a shared latent coordinate space. This spatial unification factorizes model behavior into three orthogonal latent dimensions: (1) Instability and Sensitivity, (2) Position and Alignment, and (3) Coverage and Expressiveness. By systematically separating task-irrelevant perturbations from true capability spans, the framework provides a theoretically grounded and domain-agnostic taxonomy for robust and empirically stable benchmark design.
- Abstract(参考訳): 大規模言語モデル (LLMs) の評価は、断片化されたベンチマークとアドホックなメトリクスが、しばしばメソッドのばらつき(即時感度など)を真に潜時的な能力で説明する、構成の妥当性において重要な課題に直面している。
同時に、新たな研究により、LLMの能力と出力は連続幾何多様体としてモデル化できることが示唆されている。
知識の体系化 (SoK) において, LLM 評価のための汎用マルチチューニング・マルチメソッド (MTMM) フレームワークを提案することにより, これらのパラダイムを橋渡しする。
本研究では,パラフレーズ不安定度,ドリフトスコア,オーバートン幅,プラナリズムスコアなどの9つの評価指標を定式化し,分離されたスカラー値ではなく,共有潜在座標空間内の幾何学的測定値として解釈する。
この空間的統一はモデル行動を3つの直交潜在次元に分解する:(1)不安定性と感度、(2)位置とアライメント、(3)カバーと表現性。
タスク非関連摂動を真の能力の範囲から体系的に分離することにより、このフレームワークは、堅牢で経験的に安定したベンチマーク設計のために理論的に基礎とドメインに依存しない分類を提供する。
関連論文リスト
- An Interpretable and Scalable Framework for Evaluating Large Language Models [13.322241501687715]
大規模言語モデル(LLM)の評価はますます重要になっているが、標準的なベンチマーク手法は平均精度に依存している。
アイテム応答理論(IRT)は、潜在モデル能力とアイテム特性をモデリングするための原則化されたフレームワークを提供する。
本稿では,LLM評価のための大規模化最小化原理に基づく解釈可能かつスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T23:52:12Z) - MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models [70.34265674686516]
マルチモーダル埋め込みモデルは、テキスト、画像、ビデオ、オーディオなどの異種入力を共有意味空間にマッピングすることを目的としている。
本稿では,テキスト,画像,ビデオ,オーディオ,エージェント中心のシナリオにまたがる埋め込みを評価するベンチマークであるMMEB-V3を紹介する。
本研究は, 完全モダリティ埋め込みの系統的解析を行い, 3つの重要な知見を同定する。
論文 参考訳(メタデータ) (2026-04-25T14:15:05Z) - ES-Merging: Biological MLLM Merging via Embedding Space Signals [52.84455878597969]
埋め込み空間信号からマージ係数を推定する表現対応マージフレームワークを提案する。
提案手法は既存のマージ手法よりも優れており,タスク固有の微調整モデルを超えている。
論文 参考訳(メタデータ) (2026-03-15T14:38:32Z) - Linear-LLM-SCM: Benchmarking LLMs for Coefficient Elicitation in Linear-Gaussian Causal Models [28.281361951823765]
大型言語モデル(LLM)を評価するためのプラグイン・アンド・プレイベンチマークフレームワークであるLinear-LLM-SCMを紹介する。
このようなベンチマークタスクにおける課題、すなわち、いくつかのモデルにおける結果の強みと、連続的なドメインの急激なエッジによるDAGの誤特定に対する感受性を示す。
また,ベンチマークフレームワークをオープンソースとして公開し,DAGと既製のLCMのプラグイン・アンド・プレイを,各ドメインで積極的に評価することができるようにした。
論文 参考訳(メタデータ) (2026-02-10T20:49:01Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples [3.41981716024098]
大規模言語モデル(LLM)の評価は、モデル機能が急速に進歩するにつれて、ますます困難になっている。
軽量かつ解釈可能な評価フレームワークとして textbfStructured textbfTransition textbfEvaluation textbfMethod (STEM) を提案する。
論文 参考訳(メタデータ) (2025-08-16T16:36:43Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling [17.092510377905814]
マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
論文 参考訳(メタデータ) (2025-06-13T08:04:56Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。