論文の概要: On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards
- arxiv url: http://arxiv.org/abs/2407.04065v2
- Date: Sat, 13 Jul 2024 03:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 23:47:23.988298
- Title: On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards
- Title(参考訳): リーダーボード運用(LBOps)のワークフローとスメルについて : 基礎モデルリーダーボードの探索的研究
- Authors: Zhimin Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 本研究は、これらのFMリーダーボードが現実世界のシナリオでどのように動作するかを理解することに焦点を当てる("clainboard operations")。
5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを構築します。
次に、LBOpsで8種類のリーダーボードの匂いを識別します。
- 参考スコア(独自算出の注目度): 11.99718417371013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models (FM), such as large language models (LLMs), which are large-scale machine learning (ML) models, have demonstrated remarkable adaptability in various downstream software engineering (SE) tasks, such as code completion, code understanding, and software development. As a result, FM leaderboards, especially those hosted on cloud platforms, have become essential tools for SE teams to compare and select the best third-party FMs for their specific products and purposes. However, the lack of standardized guidelines for FM evaluation and comparison threatens the transparency of FM leaderboards and limits stakeholders' ability to perform effective FM selection. As a first step towards addressing this challenge, our research focuses on understanding how these FM leaderboards operate in real-world scenarios ("leaderboard operations") and identifying potential leaderboard pitfalls and areas for improvement ("leaderboard smells"). In this regard, we perform a multivocal literature review to collect up to 721 FM leaderboards, after which we examine their documentation and engage in direct communication with leaderboard operators to understand their workflow patterns. Using card sorting and negotiated agreement, we identify 5 unique workflow patterns and develop a domain model that outlines the essential components and their interaction within FM leaderboards. We then identify 8 unique types of leaderboard smells in LBOps. By mitigating these smells, SE teams can improve transparency, accountability, and collaboration in current LBOps practices, fostering a more robust and responsible ecosystem for FM comparison and selection.
- Abstract(参考訳): 大規模機械学習(ML)モデルである大規模言語モデル(LLM)のような基礎モデル(FM)は、コード補完、コード理解、ソフトウェア開発など、様々な下流ソフトウェア工学(SE)タスクにおいて顕著な適応性を示している。
その結果、FMリーダーボード、特にクラウドプラットフォームにホストされているものは、SEチームが特定の製品や目的のために、最高のサードパーティ製のFMを比較、選択するための必須のツールになっています。
しかし、FM評価と比較のための標準化されたガイドラインの欠如は、FMリーダーボードの透明性を脅かし、効果的にFM選択を行うステークホルダーの能力を制限している。
この課題に対処する第一歩として、我々の研究は、FMリーダーボードが現実世界のシナリオ(リーダーボード操作)でどのように機能するかを理解し、潜在的なリーダーボードの落とし穴と改善のための領域(リーダーボード臭い)を特定することに焦点を当てています。
本稿では,最大721個のFMリーダボードを収集する多言語文献レビューを実施し,その上で,それらのドキュメントを調査し,そのワークフローパターンを理解するために,リーダボードオペレータと直接コミュニケーションを行う。
カードソートと交渉された合意を用いて、5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを開発する。
次に、LBOpsで8種類のリーダーボードの匂いを識別します。
これらの臭いを和らげることで、SEチームは現在のLBOpsプラクティスにおける透明性、説明責任、コラボレーションを改善し、FM比較と選択のためのより堅牢で責任あるエコシステムを育むことができる。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models [11.993910471523073]
我々は大手テクノロジー企業から155 FM4SEと997 SE4FMのブログ記事を分析した。
我々は、コード生成が最も顕著なFM4SEタスクであるのに対して、FMは他の多くのSEアクティビティに活用されていることを観察した。
クラウドのデプロイに重点を置いているが、FMを圧縮し、小さなデバイスにデプロイすることへの関心が高まっている。
論文 参考訳(メタデータ) (2024-10-11T17:27:04Z) - Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - Synergizing Foundation Models and Federated Learning: A Survey [23.416321895575507]
本稿では,フェデレートラーニング(FL)とファンデーションモデル(FM)の融合の可能性と課題について論じる。
FLは、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。
プライバシを保護しながら、分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-18T17:58:09Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:00:35Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - The Role of Federated Learning in a Wireless World with Foundation Models [59.8129893837421]
ファンデーションモデル(FM)は汎用人工知能(AI)モデルである。
現在、FMと連邦学習(FL)の相互作用の探索はまだ初期段階にある。
本稿では、FMが無線ネットワークよりもFLに適した範囲について検討し、その研究課題と機会について概観する。
論文 参考訳(メタデータ) (2023-10-06T04:13:10Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。