論文の概要: ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
- arxiv url: http://arxiv.org/abs/2601.17399v1
- Date: Sat, 24 Jan 2026 09:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.71435
- Title: ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
- Title(参考訳): ReLE:中国のLLMにおける能力異方性診断のためのスケーラブルシステムと構造化ベンチマーク
- Authors: Rui Fang, Jian Li, Wei Chen, Bin Hu, Ying-Cong Chen, Xin Tang, Liang Diao,
- Abstract要約: 本稿では,機能異方性(Capability Anisotropy)を診断するためのスケーラブルなシステムであるReLEを提案する。
我々は,207,843サンプルからなる領域$times$ Capability SymbolicMatrixの304モデルを評価した。
- 参考スコア(独自算出の注目度): 37.23311145049677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved rapid progress in Chinese language understanding, yet accurately evaluating their capabilities remains challenged by benchmark saturation and prohibitive computational costs. While static leaderboards provide snapshot rankings, they often mask the structural trade-offs between capabilities. In this work, we present ReLE (Robust Efficient Live Evaluation), a scalable system designed to diagnose Capability Anisotropy, the non-uniformity of model performance across domains. Using ReLE, we evaluate 304 models (189 commercial, 115 open-source) across a Domain $\times$ Capability orthogonal matrix comprising 207,843 samples. We introduce two methodological contributions to address current evaluation pitfalls: (1) A Symbolic-Grounded Hybrid Scoring Mechanism that eliminates embedding-based false positives in reasoning tasks; (2) A Dynamic Variance-Aware Scheduler based on Neyman allocation with noise correction, which reduces compute costs by 70\% compared to full-pass evaluations while maintaining a ranking correlation of $ρ=0.96$. Our analysis reveals that aggregate rankings are highly sensitive to weighting schemes: models exhibit a Rank Stability Amplitude (RSA) of 11.4 in ReLE versus $\sim$5.0 in traditional benchmarks, confirming that modern models are highly specialized rather than generally superior. We position ReLE not as a replacement for comprehensive static benchmarks, but as a high-frequency diagnostic monitor for the evolving model landscape.
- Abstract(参考訳): 大規模言語モデル(LLM)は、中国語理解の急速な進歩を遂げているが、ベンチマーク飽和や計算コストの禁止により、その能力の正確な評価は依然として困難である。
静的なリーダボードはスナップショットランキングを提供するが、機能間の構造的なトレードオフを隠蔽することが多い。
本稿では、ドメイン間のモデルパフォーマンスの不均一性である能力異方性(Capability Anisotropy)を診断するために設計されたスケーラブルなシステムであるReLE(Robust Efficient Live Evaluation)を提案する。
ReLEを用いて、207,843サンプルからなるDomain $\times$ Capability直交行列の304モデル(商用115オープンソース)を評価した。
1)推論タスクにおける埋め込みに基づく偽陽性を排除し,(2)雑音補正によるNeymanアロケーションに基づく動的変数認識スケジューリングにより,計算コストをフルパス評価と比較して70%削減し,そのランキング相関をρ=0.96$に維持する。
モデルでは、ReLEでは11.4のランク安定性振幅(RSA)を示し、従来のベンチマークでは$\sim$5.0を示し、現代モデルは一般的に優れているというよりも、高度に特殊化されていることを確認した。
我々は、ReLEを包括的な静的ベンチマークの代替ではなく、進化するモデルランドスケープの高周波診断モニターとして位置付ける。
関連論文リスト
- Beyond Accuracy: A Unified Random Matrix Theory Diagnostic Framework for Crash Classification Models [6.908972852063454]
ランダム行列理論(RMT)とヘビープレート自己正規化(HTSR)に基づく診断枠組みを導入する。
アイオワDOTの2つのクラッシュ分類タスク(173,512,371,062)において,9つのモデルファミリーを評価した。
正規化されたモデルは常に$[2, 4]$(平均2.87 pm 0.34$)内で$を出力します。
我々は、$$ベースの早期停止基準とスペクトルモデル選択プロトコルを提案し、両者が相互検証されたFに対して検証する。
論文 参考訳(メタデータ) (2026-02-23T05:42:54Z) - From Global to Granular: Revealing IQA Model Performance via Correlation Surface [83.65597122328133]
我々は, IQA 性能の構造化, きめ細かな解析を行う textbfGranularity-Modulated correlation (GMC) を提案する。
GMCにはtextbfDistribution Regulatorが含まれており、相関関係を規則化し、非均一な品質分布からのバイアスを軽減する。
標準ベンチマークの実験では、GCCはスカラーメトリクスに見えないパフォーマンス特性を示し、IQAモデルを分析、比較、デプロイするためのより情報に富んだ信頼性の高いパラダイムを提供する。
論文 参考訳(メタデータ) (2026-01-29T13:55:26Z) - LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics [23.99262273166077]
大規模言語モデル(LLM)と多様な特殊なベンチマークでは、断片化されたタスク固有のメトリクスから、総合的で競争的なランキングシステムに移行する必要がある。
本稿では,コンペティティブ・スイス・システム・ダイナミクス (CSD) フレームワークを紹介し,シーケンシャル・コンテストをシミュレートする。
CSDは従来のアグリゲーションスコアリングや静的ペアワイズモデルよりもニュアンスでコンテキスト対応のランキングを提供する。
論文 参考訳(メタデータ) (2025-12-24T07:14:31Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency [5.771786260272727]
我々は、エネルギー効率と機能的正当性の統一的なスケールでコード言語モデルのベンチマークを行うためのフレームワークBRACEを提案する。
同心性漸進的レーティングサークル(CIRC)と予測レーティング(OTER)の2つの評価手法を提案する。
我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
論文 参考訳(メタデータ) (2025-11-10T23:44:48Z) - An Empirical Study of SOTA RCA Models: From Oversimplified Benchmarks to Realistic Failures [16.06503310632004]
我々は,4つの広く使用されているベンチマークにおいて,単純なルールベースの手法が最先端(SOTA)モデルに適合するか,あるいは性能に優れていることを示す。
私たちの分析では、スケーラビリティの問題、可観測性の盲点、モデリングボトルネックの3つの一般的な障害パターンを強調しています。
論文 参考訳(メタデータ) (2025-10-06T11:30:03Z) - CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts [78.79936076607373]
我々は,連続ニュアンスシフトベンチマークであるCNS-Benchを導入し,連続かつ現実的なニュアンスシフトのための画像分類器の堅牢性を定量化する。
本稿では,従来の手法よりも優れたフィルタリング機構を提案し,生成モデルによる信頼性の高いベンチマークを可能にする。
論文 参考訳(メタデータ) (2025-07-23T16:15:48Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - KAIROS: Scalable Model-Agnostic Data Valuation [8.766103946679435]
KAIROSはスケーラブルでモデルに依存しない評価フレームワークで、各例に分散影響スコアを割り当てる。
KAIROSは、最先端のモデル-、Shapley-、Wassersteinベースのベースラインを精度とランタイムの両方で一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-30T12:44:28Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Benign Overfitting in Out-of-Distribution Generalization of Linear Models [19.203753135860016]
我々は、アウト・オブ・ディストリビューション(OOD)体制における良心過剰の理解に向けて、最初の一歩を踏み出した。
我々は、標準的な隆起回帰において良性過剰適合が生じることを証明する非漸近保証を提供する。
また、より一般的な目標共分散行列の族についても理論的結果を示す。
論文 参考訳(メタデータ) (2024-12-19T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。