論文の概要: MARS: Magnitude-Aware Rank Statistics
- arxiv url: http://arxiv.org/abs/2605.23563v1
- Date: Fri, 22 May 2026 12:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.344155
- Title: MARS: Magnitude-Aware Rank Statistics
- Title(参考訳): MARS:Magnitude-Aware Rank Statistics
- Authors: Muhammad Rajabinasab, Afsaneh M. Nejad, Arthur Zimek,
- Abstract要約: 本稿では,相対利得係数を離散ランクの重みとして組み込んだMagnitude-Aware Rank Statistics (MARS)を提案する。
MARSは、最高のパフォーマーと最悪のパフォーマーの間の距離に基づいてランクをスケールする。
- 参考スコア(独自算出の注目度): 2.9847673458229393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive evaluation of machine learning models is the key to make sure that they perform as robustly and consistently as desired. In order to summarize the experimental results and pick a winner, Critical Difference (CD) diagrams are used. Standard CD diagrams rely on discrete ranks, discarding the magnitude of performance gaps between models, raising an issue which we call magnitude-blindness. In order to address this issue, we propose Magnitude-Aware Rank Statistics (MARS) that incorporates a relative margin coefficient as a weight for the discrete ranks. This coefficient scales ranks based on the distance between the best and worst performers, with a dynamic projection to handle boundary cases. Followed by the calculation of a CD value, MARS results in a more realistic statistical representation of differences of model performances and more insights on how methods actually perform in vast and extensive experimental settings.
- Abstract(参考訳): 機械学習モデルの包括的評価は、彼らが望むように頑健で一貫したパフォーマンスを確実にする鍵である。
実験結果を要約し、勝者を選ぶために、批判差分(CD)ダイアグラムを用いる。
標準CDダイアグラムは、個別のランクに依存し、モデル間のパフォーマンスギャップの大きさを排除し、私たちが「大きめの盲目」と呼ぶ問題を引き起こします。
この問題に対処するために,相対余剰係数を離散ランクの重みとするMagnitude-Aware Rank Statistics (MARS)を提案する。
この係数は、最良のパフォーマーと最悪のパフォーマーの間の距離に基づいてランクをスケールし、境界ケースを扱う動的な投影を行う。
CD値の計算に追従して、MARSはモデルパフォーマンスの違いのより現実的な統計的表現と、大規模で広範な実験環境でメソッドが実際にどのように機能するかについての洞察を得る。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Performance of Cross-Validated Targeted Maximum Likelihood Estimation [0.0]
CVTMLE と TMLE を比較し,様々な環境における CVTMLE の性能について検討した。
CVTMLEは、バイアスに悪影響を及ぼすことなく、信頼区間のカバレッジを大幅に改善する。
CVTMLEは超学習者ライブラリの選択にはるかに敏感であることを示す。
論文 参考訳(メタデータ) (2024-09-17T15:15:03Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - The Challenges of Hyperparameter Tuning for Accurate Causal Effect Estimation [2.43420394129881]
因果推論には多くのML手法(因果推定器)が提案されている。
非因果予測タスクでは、メトリクスのチューニングの選択にはコンセンサスがあり、モデルの比較が簡単になる。
因果推論タスクについては、そのようなコンセンサスにはまだ到達していないため、因果モデルの比較は困難である。
論文 参考訳(メタデータ) (2023-03-02T17:03:02Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。