論文の概要: ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
- arxiv url: http://arxiv.org/abs/2601.17399v1
- Date: Sat, 24 Jan 2026 09:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.71435
- Title: ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
- Title(参考訳): ReLE:中国のLLMにおける能力異方性診断のためのスケーラブルシステムと構造化ベンチマーク
- Authors: Rui Fang, Jian Li, Wei Chen, Bin Hu, Ying-Cong Chen, Xin Tang, Liang Diao,
- Abstract要約: 本稿では,機能異方性(Capability Anisotropy)を診断するためのスケーラブルなシステムであるReLEを提案する。
我々は,207,843サンプルからなる領域$times$ Capability SymbolicMatrixの304モデルを評価した。
- 参考スコア(独自算出の注目度): 37.23311145049677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved rapid progress in Chinese language understanding, yet accurately evaluating their capabilities remains challenged by benchmark saturation and prohibitive computational costs. While static leaderboards provide snapshot rankings, they often mask the structural trade-offs between capabilities. In this work, we present ReLE (Robust Efficient Live Evaluation), a scalable system designed to diagnose Capability Anisotropy, the non-uniformity of model performance across domains. Using ReLE, we evaluate 304 models (189 commercial, 115 open-source) across a Domain $\times$ Capability orthogonal matrix comprising 207,843 samples. We introduce two methodological contributions to address current evaluation pitfalls: (1) A Symbolic-Grounded Hybrid Scoring Mechanism that eliminates embedding-based false positives in reasoning tasks; (2) A Dynamic Variance-Aware Scheduler based on Neyman allocation with noise correction, which reduces compute costs by 70\% compared to full-pass evaluations while maintaining a ranking correlation of $ρ=0.96$. Our analysis reveals that aggregate rankings are highly sensitive to weighting schemes: models exhibit a Rank Stability Amplitude (RSA) of 11.4 in ReLE versus $\sim$5.0 in traditional benchmarks, confirming that modern models are highly specialized rather than generally superior. We position ReLE not as a replacement for comprehensive static benchmarks, but as a high-frequency diagnostic monitor for the evolving model landscape.
- Abstract(参考訳): 大規模言語モデル(LLM)は、中国語理解の急速な進歩を遂げているが、ベンチマーク飽和や計算コストの禁止により、その能力の正確な評価は依然として困難である。
静的なリーダボードはスナップショットランキングを提供するが、機能間の構造的なトレードオフを隠蔽することが多い。
本稿では、ドメイン間のモデルパフォーマンスの不均一性である能力異方性(Capability Anisotropy)を診断するために設計されたスケーラブルなシステムであるReLE(Robust Efficient Live Evaluation)を提案する。
ReLEを用いて、207,843サンプルからなるDomain $\times$ Capability直交行列の304モデル(商用115オープンソース)を評価した。
1)推論タスクにおける埋め込みに基づく偽陽性を排除し,(2)雑音補正によるNeymanアロケーションに基づく動的変数認識スケジューリングにより,計算コストをフルパス評価と比較して70%削減し,そのランキング相関をρ=0.96$に維持する。
モデルでは、ReLEでは11.4のランク安定性振幅(RSA)を示し、従来のベンチマークでは$\sim$5.0を示し、現代モデルは一般的に優れているというよりも、高度に特殊化されていることを確認した。
我々は、ReLEを包括的な静的ベンチマークの代替ではなく、進化するモデルランドスケープの高周波診断モニターとして位置付ける。
関連論文リスト
- LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics [23.99262273166077]
大規模言語モデル(LLM)と多様な特殊なベンチマークでは、断片化されたタスク固有のメトリクスから、総合的で競争的なランキングシステムに移行する必要がある。
本稿では,コンペティティブ・スイス・システム・ダイナミクス (CSD) フレームワークを紹介し,シーケンシャル・コンテストをシミュレートする。
CSDは従来のアグリゲーションスコアリングや静的ペアワイズモデルよりもニュアンスでコンテキスト対応のランキングを提供する。
論文 参考訳(メタデータ) (2025-12-24T07:14:31Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - An Empirical Study of SOTA RCA Models: From Oversimplified Benchmarks to Realistic Failures [16.06503310632004]
我々は,4つの広く使用されているベンチマークにおいて,単純なルールベースの手法が最先端(SOTA)モデルに適合するか,あるいは性能に優れていることを示す。
私たちの分析では、スケーラビリティの問題、可観測性の盲点、モデリングボトルネックの3つの一般的な障害パターンを強調しています。
論文 参考訳(メタデータ) (2025-10-06T11:30:03Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - KAIROS: Scalable Model-Agnostic Data Valuation [8.766103946679435]
KAIROSはスケーラブルでモデルに依存しない評価フレームワークで、各例に分散影響スコアを割り当てる。
KAIROSは、最先端のモデル-、Shapley-、Wassersteinベースのベースラインを精度とランタイムの両方で一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-30T12:44:28Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Benign Overfitting in Out-of-Distribution Generalization of Linear Models [19.203753135860016]
我々は、アウト・オブ・ディストリビューション(OOD)体制における良心過剰の理解に向けて、最初の一歩を踏み出した。
我々は、標準的な隆起回帰において良性過剰適合が生じることを証明する非漸近保証を提供する。
また、より一般的な目標共分散行列の族についても理論的結果を示す。
論文 参考訳(メタデータ) (2024-12-19T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。