論文の概要: Gaming the Arena: AI Model Evaluation and the Viral Capture of Attention
- arxiv url: http://arxiv.org/abs/2512.15252v1
- Date: Wed, 17 Dec 2025 09:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.926664
- Title: Gaming the Arena: AI Model Evaluation and the Viral Capture of Attention
- Title(参考訳): アリーナのゲーム:AIモデルの評価と注意のバイラルキャプチャ
- Authors: Sam Hind,
- Abstract要約: 剣術的な「浴場」に着目してAIモデルを評価するいわゆる「アリーナ」の台頭について検討する。
私は、アリーナ化はAIコミュニティの中と外の両方の注目を集めたいという'ウイルス'の欲求に支えられていると論じます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Innovation in artificial intelligence (AI) has always been dependent on technological infrastructures, from code repositories to computing hardware. Yet industry - rather than universities - has become increasingly influential in shaping AI innovation. As generative forms of AI powered by large language models (LLMs) have driven the breakout of AI into the wider world, the AI community has sought to develop new methods for independently evaluating the performance of AI models. How best, in other words, to compare the performance of AI models against other AI models - and how best to account for new models launched on nearly a daily basis? Building on recent work in media studies, STS, and computer science on benchmarking and the practices of AI evaluation, I examine the rise of so-called 'arenas' in which AI models are evaluated with reference to gladiatorial-style 'battles'. Through a technography of a leading user-driven AI model evaluation platform, LMArena, I consider five themes central to the emerging 'arena-ization' of AI innovation. Accordingly, I argue that the arena-ization is being powered by a 'viral' desire to capture attention both in, and outside of, the AI community, critical to the scaling and commercialization of AI products. In the discussion, I reflect on the implications of 'arena gaming', a phenomenon through which model developers hope to capture attention.
- Abstract(参考訳): 人工知能(AI)のイノベーションは、コードリポジトリからコンピューティングハードウェアまで、常に技術インフラに依存している。
しかし、産業界は、大学ではなく、AIイノベーションを形作ることにますます影響力を増している。
大規模言語モデル(LLM)を利用したAI生成形式がAIのより広い世界へのブレークアウトを促したため、AIコミュニティは、AIモデルのパフォーマンスを独立して評価する新しい方法の開発を模索してきた。
言い換えれば、AIモデルと他のAIモデルのパフォーマンスを比較するのが最適なのか?
近年のメディア研究,STS,コンピュータ科学におけるベンチマークとAI評価の実践に基づいて,剣術的な「バトル」に言及してAIモデルを評価するいわゆる「アリーナ」の台頭について検討する。
ユーザ主導型AIモデル評価プラットフォームであるLMArenaのテクノグラフィを通じて、AIイノベーションの新たな「領域化」の中心となる5つのテーマを考えます。
したがって、このアリーナ化は、AIプロダクトのスケーリングと商業化に不可欠な、AIコミュニティ内外の両方の注目を集めたいという'ウイルス'の欲求によって実現されている、と私は論じます。
議論では,モデル開発者が注意を引こうとする現象である「アリーナゲーム」の意義について考察する。
関連論文リスト
- AI Generations: From AI 1.0 to AI 4.0 [3.4440023363051266]
本稿では,人工知能(AI)が複数の世代にまたがって進化していくことを提案する。
これらのAI世代は、アルゴリズム、計算能力、データ間の優先順位のシフトによって駆動される。
人工知能が人間のような自律性に近づいた(あるいはそうしようとする)ときに生じる、深い倫理的、規制的、哲学的な課題を探求する。
論文 参考訳(メタデータ) (2025-02-16T23:19:44Z) - The AI-Native Software Development Lifecycle: A Theoretical and Practical New Methodology [0.0]
このホワイトペーパーは、完全にAIネイティブなSDLCの出現を提案する。
本稿では,AIを終端から終端まで組み込んだ従来のV-モデルの適応であるV-バウンスモデルを紹介する。
このモデルは、AIが実装エンジンとして機能するバリデータや検証者に至るまで、主要な実装者から人間の役割を再定義する。
論文 参考訳(メタデータ) (2024-08-06T19:30:49Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Building Bridges: Generative Artworks to Explore AI Ethics [56.058588908294446]
近年,人工知能(AI)技術が社会に与える影響の理解と緩和に重点が置かれている。
倫理的AIシステムの設計における重要な課題は、AIパイプラインには複数の利害関係者があり、それぞれがそれぞれ独自の制約と関心を持っていることだ。
このポジションペーパーは、生成的アートワークが、アクセス可能で強力な教育ツールとして機能することで、この役割を果たすことができる可能性のいくつかを概説する。
論文 参考訳(メタデータ) (2021-06-25T22:31:55Z) - Time for AI (Ethics) Maturity Model Is Now [15.870654219935972]
この記事では、AIソフトウェアはまだソフトウェアであり、ソフトウェア開発の観点からアプローチする必要がある、と論じる。
我々は、AI倫理に重点を置くべきか、それともより広く、AIシステムの品質に重点を置くべきかを議論したい。
論文 参考訳(メタデータ) (2021-01-29T17:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。