論文の概要: Beyond the Leaderboard: Understanding Performance Disparities in Large Language Models via Model Diffing
- arxiv url: http://arxiv.org/abs/2509.18792v1
- Date: Tue, 23 Sep 2025 08:35:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.775028
- Title: Beyond the Leaderboard: Understanding Performance Disparities in Large Language Models via Model Diffing
- Title(参考訳): リーダーボードを超えて - モデルディッフィングによる大規模言語モデルのパフォーマンス格差の理解
- Authors: Sabri Boughorbel, Fahim Dalvi, Nadir Durrani, Majd Hawasly,
- Abstract要約: モデル差分法を用いて, Gemma-2-9b-it と SimPO-enhanced の差分を解析する。
クロスコーダを用いて、2つのモデルを区別する潜在表現を特定し分類する。
- 参考スコア(独自算出の注目度): 13.861365773419314
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As fine-tuning becomes the dominant paradigm for improving large language models (LLMs), understanding what changes during this process is increasingly important. Traditional benchmarking often fails to explain why one model outperforms another. In this work, we use model diffing, a mechanistic interpretability approach, to analyze the specific capability differences between Gemma-2-9b-it and a SimPO-enhanced variant. Using crosscoders, we identify and categorize latent representations that differentiate the two models. We find that SimPO acquired latent concepts predominantly enhance safety mechanisms (+32.8%), multilingual capabilities (+43.8%), and instruction-following (+151.7%), while its additional training also reduces emphasis on model self-reference (-44.1%) and hallucination management (-68.5%). Our analysis shows that model diffing can yield fine-grained insights beyond leaderboard metrics, attributing performance gaps to concrete mechanistic capabilities. This approach offers a transparent and targeted framework for comparing LLMs.
- Abstract(参考訳): 微調整が大規模言語モデル(LLM)の改善の主要なパラダイムとなるにつれ、このプロセスにおける変化を理解することがますます重要である。
従来のベンチマークは、あるモデルが別のモデルより優れている理由を説明するのに失敗することが多い。
本研究では, モデル微分法を用いて, Gemma-2-9b-it と SimPO-enhanced の差分を解析する。
クロスコーダを用いて、2つのモデルを区別する潜在表現を特定し分類する。
SimPOが獲得した潜在概念は,安全性機構(+32.8%),多言語能力(+43.8%),命令フォロー(+151.7%),モデル自己参照(-44.1%)と幻覚管理(-68.5%)に重点を置いている。
我々の分析によると、モデル拡散は、リーダーボードのメトリクスを超えてきめ細かな洞察を与え、パフォーマンスのギャップを具体的なメカニスティックな能力にもたらすことができる。
このアプローチは、LLMを比較するための透過的でターゲットのフレームワークを提供する。
関連論文リスト
- Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - The Inter-Intra Modal Measure: A Predictive Lens on Fine-Tuning Outcomes in Vision-Language Models [6.7181844004432385]
Intra Modal Measure (IIMM) は、モーダル内画像の類似性とモーダル間不一致の関係を定量化する予測指標である。
既存の転送可能性測定と比較して、IIMMはデュアルエンコーダモデルにおける微調整後の精度変化に対して、はるかに強い予測力を示す。
我々は、IIMMの変化が、事前と後調整の埋め込みの間のワッサーシュタイン距離によって制限されていることを証明した理論的境界を与える。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。