論文の概要: Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling
- arxiv url: http://arxiv.org/abs/2506.21572v1
- Date: Fri, 13 Jun 2025 08:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.285358
- Title: Aligning MLLM Benchmark With Human Preferences via Structural Equation Modeling
- Title(参考訳): 構造方程式モデリングによるMLLMベンチマークの人間の選好による調整
- Authors: Tianyu. Zou, Shengwu. Xiong, Ruilin. Yao, Jirui. Huang, Yi. Rong, Yaxiong. Chen, Shili. Xiong, Cong. Wang,
- Abstract要約: マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するために、構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
- 参考スコア(独自算出の注目度): 17.092510377905814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating multimodal large language models (MLLMs) remains a fundamental challenge due to a lack of structured, interpretable, and theoretically grounded benchmark designs. Existing benchmarks often adopt heuristic-based task groupings with unclear cognitive targets, thus resulting in overlapping abilities, redundant indicators, and limited diagnostic power. In this work, we propose a novel framework for aligning MLLM benchmark based on Structural Equation Modeling (SEM) to analyze and quantify the internal validity, dimensional separability, and contribution of benchmark components. Motivated by the observed limitations of current designs, we further introduce a novel capability hierarchy grounded in Piagets theory of cognitive development, dividing MLLM abilities into three hierarchical layers, i.e., Perception, Memory, and Reasoning. We reorganize existing MLLM benchmarks under the proposed framework and construct a new benchmark named Gold. Experimental results demonstrate that the proposed benchmark exhibits stronger interpretability, reduced indicator redundancy, and clearer cognitive consistency compared to existing approaches.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) の評価は、構造化され、解釈可能で、理論的に基礎付けられたベンチマーク設計の欠如により、依然として根本的な課題である。
既存のベンチマークでは、認知目標が不明なヒューリスティックなタスクグループ化を採用しており、結果として重複する能力、冗長な指標、診断能力の制限が生じる。
本研究では、内部の妥当性、次元分離性、およびベンチマークコンポーネントの寄与を分析するための構造方程式モデリング(SEM)に基づくMLLMベンチマークの整合性を示す新しいフレームワークを提案する。
本研究は, 認知発達のピアジェス理論を基盤とした新しい能力階層を導入し, MLLM能力を3つの階層層(知覚, 記憶, 推論)に分割する。
我々は,既存のMLLMベンチマークをフレームワークとして再編成し,Goldという新しいベンチマークを構築した。
実験結果から,提案ベンチマークは,従来の手法に比べて高い解釈可能性,指標冗長性の低減,認知的整合性の明確化を示すことが示された。
関連論文リスト
- Understanding Multi-Agent LLM Frameworks: A Unified Benchmark and Experimental Analysis [2.903627214446312]
本稿では,マルチエージェント LLM フレームワークを基本次元に沿って体系的に比較するためのアーキテクチャ分類法を提案する。
我々は,既存のベンチマークを標準化された実行パイプラインの下で統合する統合評価スイートを開発した。
以上の結果から,フレームワークレベルの設計選択だけでレイテンシが100倍以上向上し,計画精度が最大30%向上し,調整成功率が90%以上から30%以下に低下する可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-03T05:37:56Z) - Deconstructing Instruction-Following: A New Benchmark for Granular Evaluation of Large Language Model Instruction Compliance Abilities [2.9203730377983654]
既存のベンチマークでは、実際の使用を反映したり、コンプライアンスをタスクの成功から分離することができない。
アプリケーション指向の生成制約を最大20個まで含む動的に生成されたデータセットを使用するモジュール型フレームワークであるMOSAICを紹介した。
コンプライアンスはモノリシックな機能ではなく、制約タイプ、量、位置によって大きく異なります。
論文 参考訳(メタデータ) (2026-01-26T15:02:15Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Designing Empirical Studies on LLM-Based Code Generation: Towards a Reference Framework [0.3568466510804538]
大規模言語モデル(LLM)に基づくコード生成に関する経験的研究を設計・報告するための理論的枠組みを提案する。
このフレームワークは、そのような実験を行ったこれまでの経験と、最近の研究における重要な類似点と相違点の比較分析の両方に基礎を置いている。
問題ソース、品質属性、メトリクスなどのコアコンポーネントに関する評価を組織化し、構造化および体系的な実験をサポートする。
論文 参考訳(メタデータ) (2025-10-04T16:15:54Z) - Mapping Overlaps in Benchmarks through Perplexity in the Wild [8.321258152814986]
我々は,大規模言語モデル(LLM)ベンチマークとその意味的な重複を特徴付けるために,キャパシティ親しみやすさのシグネチャを開発する。
本分析は,ベンチマーク質問の意味的類似性とモデル性能の相関性の両方に関して,シグネチャを定式化したものである。
最終的には、論理、数学、言語、命令追従、世界モデリングにまたがるクロスファンクショナルオーバーラップを識別し、コーディングが最重複の少ないドメインとして現れます。
論文 参考訳(メタデータ) (2025-09-27T20:23:13Z) - STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples [3.41981716024098]
大規模言語モデル(LLM)の評価は、モデル機能が急速に進歩するにつれて、ますます困難になっている。
軽量かつ解釈可能な評価フレームワークとして textbfStructured textbfTransition textbfEvaluation textbfMethod (STEM) を提案する。
論文 参考訳(メタデータ) (2025-08-16T16:36:43Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation [15.205635488139043]
大規模言語モデル(LLM)における推論能力の階層構造を特徴付けるフレームワークであるRE-IMAGINEを紹介する。
中間記号表現における問題を変更することにより、RE-IMAGINEは暗記だけでは解けない多くの問題を任意に生成する。
提案手法は, LLM の複数のファミリーを評価するために広く利用されている4つのベンチマークで実証し, モデルに問題ばらつきがある場合の性能低下を観察する。
論文 参考訳(メタデータ) (2025-06-18T13:35:47Z) - Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory [44.886213907135435]
商品の特徴とモデル能力の正確かつ信頼性の高い評価を行うための新しいフレームワークを提案する。
PSN-IRT は IRT-grounded アーキテクチャにアイテムパラメータの豊富なセットを組み込んでいる。
我々は,PSN-IRTがより小さなベンチマークを構築できると同時に,人間の嗜好との整合性を維持していることを示す。
論文 参考訳(メタデータ) (2025-05-21T03:24:11Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。