Fugu-MT 論文翻訳(概要): Benchmark Shadows: Data Alignment, Parameter Footprints, and Generalization in Large Language Models

論文の概要: Benchmark Shadows: Data Alignment, Parameter Footprints, and Generalization in Large Language Models

arxiv url: http://arxiv.org/abs/2604.07363v1
Date: Wed, 01 Apr 2026 13:29:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.417214
Title: Benchmark Shadows: Data Alignment, Parameter Footprints, and Generalization in Large Language Models
Title（参考訳）: ベンチマークシャドウ:大規模言語モデルにおけるデータアライメント、パラメータフットプリント、一般化
Authors: Hongjian Zou, Yidan Wang, Qi Ding, Yixuan Liao, Xiaoxin Chen,
Abstract要約: 大規模な言語モデルは、より大きな能力の改善を伴わずに、しばしば強力なベンチマークゲインを達成する。ベンチマークに適合したデータは、より広範な表現的開発を制限しながら、狭い評価基準を改善する。スペクトルおよびランク分析に基づくパラメータ空間診断を導入し,これらの状態の構造的特徴を明らかにした。
参考スコア（独自算出の注目度）: 8.94544779275887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models often achieve strong benchmark gains without corresponding improvements in broader capability. We hypothesize that this discrepancy arises from differences in training regimes induced by data distribution. To investigate this, we design controlled data interventions that isolate distributional effects under fixed training settings. We find that benchmark-aligned data improves narrow evaluation metrics while limiting broader representational development, whereas coverage-expanding data leads to more distributed parameter adaptation and better generalization. We further introduce parameter-space diagnostics based on spectral and rank analyses, which reveal distinct structural signatures of these regimes. Similar patterns are observed across diverse open-source model families, including multimodal models as a key case study, suggesting that these effects extend beyond controlled settings. A case study on prompt repetition shows that not all data artifacts induce regime shifts. These results indicate that benchmark performance alone is insufficient to characterize model capability, and highlight the importance of data distribution in shaping learning dynamics.
Abstract（参考訳）: 大規模な言語モデルは、より大きな能力の改善を伴わずに、しばしば強力なベンチマークゲインを達成する。この相違は、データ分布によって引き起こされる訓練体制の違いに起因すると仮定する。そこで本研究では,一定条件下での分散効果を分離する制御データ介入を設計する。ベンチマークアライメントされたデータは、より広範な表現的発達を制限しながら、狭い評価指標を改善するのに対し、カバレッジ拡張データは、より分散パラメータ適応とより優れた一般化をもたらす。さらに、スペクトルおよびランク分析に基づくパラメータ空間診断を導入し、これらの規則の構造的特徴を明らかにした。同様のパターンは、マルチモーダルモデルを含む様々なオープンソースモデルファミリで観測されており、これらの効果が制御された設定を超えて広がることを示唆している。迅速な反復に関するケーススタディは、すべてのデータアーティファクトがレギュラーシフトを誘発するわけではないことを示している。これらの結果から,ベンチマーク性能だけではモデル性能を特徴づけるには不十分であることが示唆され,学習力学の整形におけるデータ分散の重要性が強調された。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Sequential Data Augmentation for Generative Recommendation [54.765568804267645]
生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。データ拡張(Data augmentation)は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスである。我々は、サンプリングプロセスとして拡張をモデル化し、その結果のトレーニング分布の柔軟な制御を可能にする、原則化されたフレームワークであるGenPASを提案する。ベンチマークと産業データセットを用いた実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れていることが示された。
論文参考訳（メタデータ） (2025-09-17T02:53:25Z)
Prior Distribution and Model Confidence [0.0]
本稿では、再学習を必要とせずに、未知のデータに対するモデル予測の信頼性を理解するための枠組みを提案する。本手法は,埋め込み空間におけるトレーニング分布からの距離に基づいて,低信頼度予測をフィルタリングする。提案手法はモデルに依存しない一般化可能であり,コンピュータビジョン以外の応用の可能性がある。
論文参考訳（メタデータ） (2025-09-05T20:17:26Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。これらの課題に対処するための影響関数フレームワークを開発する。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文参考訳（メタデータ） (2024-05-03T10:05:31Z)
On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文参考訳（メタデータ） (2020-05-01T02:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。