論文の概要: On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards
- arxiv url: http://arxiv.org/abs/2407.04065v3
- Date: Thu, 12 Dec 2024 23:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:13.448542
- Title: On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards
- Title(参考訳): リーダーボード運用(LBOps)のワークフローとスメルについて : 基礎モデルリーダーボードの探索的研究
- Authors: Zhimin Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 本研究は、これらのFMリーダーボードが現実世界のシナリオでどのように動作するかを理解することに焦点を当てる("clainboard operations")。
最大1,045個のFMリーダーボードを5つのソースから収集し、ドキュメントを調べ、リーダーボードオペレーターと直接通信する。
次に、LBOpsの8つのユニークなタイプのリーダボード臭いを特定します。これらの臭いを緩和することで、SEチームは、現在のLBOpsプラクティスにおける透明性、説明責任、コラボレーションを改善することができます。
- 参考スコア(独自算出の注目度): 11.99718417371013
- License:
- Abstract: Foundation models (FM), such as large language models (LLMs), which are large-scale machine learning (ML) models, have demonstrated remarkable adaptability in various downstream software engineering (SE) tasks, such as code completion, code understanding, and software development. As a result, FM leaderboards have become essential tools for SE teams to compare and select the best third-party FMs for their specific products and purposes. However, the lack of standardized guidelines for FM evaluation and comparison threatens the transparency of FM leaderboards and limits stakeholders' ability to perform effective FM selection. As a first step towards addressing this challenge, our research focuses on understanding how these FM leaderboards operate in real-world scenarios ("leaderboard operations") and identifying potential pitfalls and areas for improvement ("leaderboard smells"). In this regard, we collect up to 1,045 FM leaderboards from five different sources: GitHub, Hugging Face Spaces, Papers With Code, spreadsheet and independent platform, to examine their documentation and engage in direct communication with leaderboard operators to understand their workflows. Through card sorting and negotiated agreement, we identify five distinct workflow patterns and develop a domain model that captures the key components and their interactions within these workflows. We then identify eight unique types of leaderboard smells in LBOps. By mitigating these smells, SE teams can improve transparency, accountability, and collaboration in current LBOps practices, fostering a more robust and responsible ecosystem for FM comparison and selection.
- Abstract(参考訳): 大規模機械学習(ML)モデルである大規模言語モデル(LLM)のような基礎モデル(FM)は、コード補完、コード理解、ソフトウェア開発など、様々な下流ソフトウェア工学(SE)タスクにおいて顕著な適応性を示している。
結果として、FMリーダーボードはSEチームにとって、特定の製品や目的のために、最高のサードパーティ製FMを比較、選択するための必須のツールになっている。
しかし、FM評価と比較のための標準化されたガイドラインの欠如は、FMリーダーボードの透明性を脅かし、効果的にFM選択を行うステークホルダーの能力を制限している。
この課題に対処する第一歩として、これらのFMリーダーボードが現実のシナリオ("リーダーボード操作")でどのように機能するかを理解し、潜在的な落とし穴と改善のための領域("リーダーボード臭い")を特定することに重点を置いています。
この点に関して、GitHub、Hugging Face Spaces、Papers With Code、スプレッドシート、独立プラットフォームという5つのソースから、最大1,045のFMリーダボードを収集して、彼らのドキュメントを調べ、彼らのワークフローを理解するためにリーダボードオペレータと直接通信します。
カードソートと交渉された合意を通じて、5つの異なるワークフローパターンを特定し、これらのワークフロー内で重要なコンポーネントとそのインタラクションをキャプチャするドメインモデルを開発する。
次に、LBOpsで8種類のリーダーボードの匂いを識別します。
これらの臭いを和らげることで、SEチームは現在のLBOpsプラクティスにおける透明性、説明責任、コラボレーションを改善し、FM比較と選択のためのより堅牢で責任あるエコシステムを育むことができる。
関連論文リスト
- A Framework for Double-Blind Federated Adaptation of Foundation Models [4.910367774892893]
完全同型暗号(FHE)を用いたFMの二重盲連合適応のためのフレームワークを提案する。
提案したフレームワークは、FMを知識蒸留によりFHEフレンドリーなブロックの列に分解する。
結果として生じるFHEフレンドリーなモデルは、低ランクの並列アダプタを介して下流タスクに適応する。
論文 参考訳(メタデータ) (2025-02-03T12:00:11Z) - Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - From Cool Demos to Production-Ready FMware: Core Challenges and a Technology Roadmap [12.313710667597897]
我々は,FMウェアを多種多様なデータソースで生産する上で重要な課題を特定するために,半構造化されたテーマ合成を行う。
FMの選択、データとモデルのアライメント、プロンプトエンジニアリング、エージェントオーケストレーション、システムテスト、デプロイメントにおける重要な問題を特定します。
これらの課題に対処するために必要な技術や戦略について議論し、デモシステムからスケーラブルで実運用対応のFMwareソリューションへの移行を可能にするためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-10-28T07:16:00Z) - Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models [11.993910471523073]
我々は大手テクノロジー企業から155 FM4SEと997 SE4FMのブログ記事を分析した。
我々は、コード生成が最も顕著なFM4SEタスクであるのに対して、FMは他の多くのSEアクティビティに活用されていることを観察した。
クラウドのデプロイに重点を置いているが、FMを圧縮し、小さなデバイスにデプロイすることへの関心が高まっている。
論文 参考訳(メタデータ) (2024-10-11T17:27:04Z) - Synergizing Foundation Models and Federated Learning: A Survey [23.416321895575507]
本稿では,フェデレートラーニング(FL)とファンデーションモデル(FM)の融合の可能性と課題について論じる。
FLは、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。
プライバシを保護しながら、分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-18T17:58:09Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:00:35Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - ManagerTower: Aggregating the Insights of Uni-Modal Experts for
Vision-Language Representation Learning [73.47165576175541]
2tower Vision-Language (VL)モデルは、様々な下流タスクに有望な改善を示している。
異なるレベルの訓練済みユニモーダル専門家の洞察を収集し、組み合わせた、新しいVLモデルアーキテクチャであるManageTowerを提案する。
論文 参考訳(メタデータ) (2023-05-31T18:23:57Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。