論文の概要: The Trust Paradox: How CS Researchers Engage LLM Leaderboards
- arxiv url: http://arxiv.org/abs/2605.28966v1
- Date: Wed, 27 May 2026 18:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.143973
- Title: The Trust Paradox: How CS Researchers Engage LLM Leaderboards
- Title(参考訳): CS研究者がLSMのリーダーボードをいかに活用するか
- Authors: Pouya Sadeghi, Anamaria Crisan, Jimmy Lin,
- Abstract要約: リーダーボードは、標準化されたベンチマークを使用してAIモデルをランク付けするが、研究者の実際の実践をどのように形作るかは、実証的にも証明されていない。
我々は、実用的懐疑主義のほぼ普遍的なパラドックスを見出した:参加者はリーダーボードのランキングに深い不信を表明したが、彼らはそれらを粗悪な意思決定支援として使用し続けた。
これらの知見を,評価インフラと研究者の実際の使用方法とを一致させる具体的な設計勧告に翻訳する。
- 参考スコア(独自算出の注目度): 49.627487948130444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) leaderboards rank AI models using standardized benchmarks and have become highly visible across computer science, despite known limitations in their reliability and robustness. Yet how they shape researchers' actual practice remains empirically uncharted. We address this gap through semi-structured interviews with eight researchers across four computer science subfields, analyzed using reflexive thematic analysis. We find a near-universal paradox of pragmatic skepticism: while participants expressed deep distrust of leaderboard rankings, they continued to use them as rough decision-making aids. Peer networks, not leaderboards, emerged as the primary model selection mechanism, and arena-based (human-voting) leaderboards were consistently preferred over static benchmark leaderboards. Leaderboard influence varied sharply across subfields, revealing that disciplinary culture, not individual attitudes, mediates engagement; for instance, NLP researchers faced state-of-the-art comparison pressure while HCI and Systems/Privacy researchers reported none. Across these differences, however, participants converged on cost transparency as the most demanded missing feature (seven of eight). We translate these findings into concrete design recommendations that align evaluation infrastructure with how researchers actually use it, such as task-specific score breakdowns, cost integration, and voter-demographic disclosure.
- Abstract(参考訳): 大規模言語モデル(LLM)のリーダーボードは、標準化されたベンチマークを使用してAIモデルをランク付けし、信頼性と堅牢性の既知の制限にもかかわらず、コンピュータ科学全体で高い可視性を持っている。
しかし、研究者の実際の実践をどのように形作るかは、いまだに実証的に解明されていない。
このギャップは、4つのコンピュータ科学サブフィールドの研究者8人との半構造化インタビューを通じて解決し、反射的テーマ解析を用いて解析した。
我々は、実用的懐疑主義のほぼ普遍的なパラドックスを見出した:参加者はリーダーボードのランキングに深い不信を表明したが、彼らはそれらを粗悪な意思決定支援として使用し続けた。
リーダーボードではなくピアネットワークが主要なモデル選択メカニズムとして現れ、静的なベンチマークのリーダーボードよりも、アリーナベースの(人間の投票)リーダーボードが一貫して好まれていた。
例えば、NLPの研究者は最先端の比較圧力に直面し、HCIとSystems/Privacyの研究者は報告しなかった。
しかし、これらの違い全体で、参加者は最も要求された欠落機能(7つのうち7つ)として、コスト透明性に収束した。
本研究では,これらの知見を具体的な設計勧告に変換し,評価インフラと,タスク固有のスコアのブレークダウン,コスト統合,投票者によるデノグラフィー開示など,研究者の実際の使用方法とを一致させる。
関連論文リスト
- Not My Truce: Personality Differences in AI-Mediated Workplace Negotiation [15.57105036031543]
理論駆動型AI(Trucey)、汎用AI(Control-AI)、従来の交渉ハンドブック(Control-NoAI)を比較した。
回復力のある労働者は、主にハンドブックから幅広い心理的利益を得た。
過剰管理された労働者は、理論駆動型AIによる結果特異的な改善を示した。
統制下にある労働者は、枠組みに関わったにも拘わらず、最小限の効果を示した。
論文 参考訳(メタデータ) (2026-04-01T04:26:26Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - An External Fairness Evaluation of LinkedIn Talent Search [55.18656975953939]
LinkedInのTalent Searchランキングシステムのバイアスに対する、独立したサードパーティによる監査を行います。
我々は、性別と人種の2つの属性にまたがる潜在的なランキングバイアスに焦点を当てている。
我々の分析は、初期階級の少数派を過小評価していることを示している。
論文 参考訳(メタデータ) (2025-11-13T19:10:49Z) - MoVa: Towards Generalizable Classification of Human Morals and Values [57.93595662296688]
MoVaは、人間の道徳と価値観の一般化可能な分類のための、文書化されたリソーススイートである。
MoVaのデータと手法は、人間と機械のコミュニケーションを細かく解釈するのに役立つ。
論文 参考訳(メタデータ) (2025-09-29T02:56:27Z) - Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach [53.824673312331626]
Implicit Demography Inference (IDI)モジュールは、k平均クラスタリングを用いて、音声感情認識(SER)におけるバイアスを軽減する
実験により、擬似ラベルIDIはサブグループの格差を減らし、フェアネスの指標を28%以上改善することが示された。
教師なしのIDIは、SERのパフォーマンスが3.6%未満のフェアネス指標を4.6%以上改善する。
論文 参考訳(メタデータ) (2025-05-20T14:50:44Z) - Improving LLM Leaderboards with Psychometrical Methodology [0.0]
大規模言語モデル(LLM)の急速な開発は、その性能を評価するためにベンチマークの作成を必要としている。
これらのベンチマークは、人間のテストや調査に似ており、これらのシステムの認知行動における創発性を測定するために設計された質問で構成されている。
しかし、社会科学でよく定義された特徴や能力とは異なり、これらのベンチマークによって測定される特性は曖昧で厳密に定義されていないことが多い。
論文 参考訳(メタデータ) (2025-01-27T21:21:46Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - Automated Mining of Leaderboards for Empirical AI Research [0.0]
本研究では,知識グラフに基づく学術情報組織のためのリーダーボード作成のための包括的アプローチを提案する。
具体的には,最先端のトランスフォーマーモデルであるViz. Bert, SciBert, XLNetを用いたリーダボードの自動構築の問題点について検討する。
その結果、実験的なAI研究の大部分を、知識グラフとして次世代デジタルライブラリにまとめることができる。
論文 参考訳(メタデータ) (2021-08-31T10:00:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。