Fugu-MT 論文翻訳(概要): On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards

論文の概要: On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards

arxiv url: http://arxiv.org/abs/2407.04065v2
Date: Sat, 13 Jul 2024 03:21:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 23:47:23.988298
Title: On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards
Title（参考訳）: リーダーボード運用(LBOps)のワークフローとスメルについて : 基礎モデルリーダーボードの探索的研究
Authors: Zhimin Zhao, Abdul Ali Bangash, Filipe Roseiro Côgo, Bram Adams, Ahmed E. Hassan,
Abstract要約: 本研究は、これらのFMリーダーボードが現実世界のシナリオでどのように動作するかを理解することに焦点を当てる("clainboard operations")。 5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを構築します。次に、LBOpsで8種類のリーダーボードの匂いを識別します。
参考スコア（独自算出の注目度）: 11.99718417371013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models (FM), such as large language models (LLMs), which are large-scale machine learning (ML) models, have demonstrated remarkable adaptability in various downstream software engineering (SE) tasks, such as code completion, code understanding, and software development. As a result, FM leaderboards, especially those hosted on cloud platforms, have become essential tools for SE teams to compare and select the best third-party FMs for their specific products and purposes. However, the lack of standardized guidelines for FM evaluation and comparison threatens the transparency of FM leaderboards and limits stakeholders' ability to perform effective FM selection. As a first step towards addressing this challenge, our research focuses on understanding how these FM leaderboards operate in real-world scenarios ("leaderboard operations") and identifying potential leaderboard pitfalls and areas for improvement ("leaderboard smells"). In this regard, we perform a multivocal literature review to collect up to 721 FM leaderboards, after which we examine their documentation and engage in direct communication with leaderboard operators to understand their workflow patterns. Using card sorting and negotiated agreement, we identify 5 unique workflow patterns and develop a domain model that outlines the essential components and their interaction within FM leaderboards. We then identify 8 unique types of leaderboard smells in LBOps. By mitigating these smells, SE teams can improve transparency, accountability, and collaboration in current LBOps practices, fostering a more robust and responsible ecosystem for FM comparison and selection.
Abstract（参考訳）: 大規模機械学習(ML)モデルである大規模言語モデル(LLM)のような基礎モデル(FM)は、コード補完、コード理解、ソフトウェア開発など、様々な下流ソフトウェア工学(SE)タスクにおいて顕著な適応性を示している。その結果、FMリーダーボード、特にクラウドプラットフォームにホストされているものは、SEチームが特定の製品や目的のために、最高のサードパーティ製のFMを比較、選択するための必須のツールになっています。しかし、FM評価と比較のための標準化されたガイドラインの欠如は、FMリーダーボードの透明性を脅かし、効果的にFM選択を行うステークホルダーの能力を制限している。この課題に対処する第一歩として、我々の研究は、FMリーダーボードが現実世界のシナリオ(リーダーボード操作)でどのように機能するかを理解し、潜在的なリーダーボードの落とし穴と改善のための領域(リーダーボード臭い)を特定することに焦点を当てています。本稿では,最大721個のFMリーダボードを収集する多言語文献レビューを実施し,その上で,それらのドキュメントを調査し,そのワークフローパターンを理解するために,リーダボードオペレータと直接コミュニケーションを行う。カードソートと交渉された合意を用いて、5つのユニークなワークフローパターンを特定し、FMリーダーボード内で必要不可欠なコンポーネントとその相互作用を概説するドメインモデルを開発する。次に、LBOpsで8種類のリーダーボードの匂いを識別します。これらの臭いを和らげることで、SEチームは現在のLBOpsプラクティスにおける透明性、説明責任、コラボレーションを改善し、FM比較と選択のためのより堅牢で責任あるエコシステムを育むことができる。

関連論文リスト

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models [45.12916211850169]
行動基盤モデル(BFM)は、ヒューマノイドエージェントのマルチモーダル、ヒューマンライクな制御を可能にする。タスクトークン(Task Tokens)は、BFMを柔軟性を維持しつつ、特定のタスクに効果的に調整する方法である。タスクトークンは,その一般化能力を維持しつつ,特定の制御タスクにBFMを適用する上で有望なアプローチであることを示す。
論文参考訳（メタデータ） (2025-03-28T21:28:13Z)
A Framework for Double-Blind Federated Adaptation of Foundation Models [4.910367774892893]
完全同型暗号(FHE)を用いたFMの二重盲連合適応のためのフレームワークを提案する。提案したフレームワークは、FMを知識蒸留によりFHEフレンドリーなブロックの列に分解する。結果として生じるFHEフレンドリーなモデルは、低ランクの並列アダプタを介して下流タスクに適応する。
論文参考訳（メタデータ） (2025-02-03T12:00:11Z)
Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文参考訳（メタデータ） (2024-11-05T04:10:59Z)
From Cool Demos to Production-Ready FMware: Core Challenges and a Technology Roadmap [12.313710667597897]
我々は,FMウェアを多種多様なデータソースで生産する上で重要な課題を特定するために,半構造化されたテーマ合成を行う。 FMの選択、データとモデルのアライメント、プロンプトエンジニアリング、エージェントオーケストレーション、システムテスト、デプロイメントにおける重要な問題を特定します。これらの課題に対処するために必要な技術や戦略について議論し、デモシステムからスケーラブルで実運用対応のFMwareソリューションへの移行を可能にするためのガイダンスを提供する。
論文参考訳（メタデータ） (2024-10-28T07:16:00Z)
Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models [11.993910471523073]
我々は大手テクノロジー企業から155 FM4SEと997 SE4FMのブログ記事を分析した。我々は、コード生成が最も顕著なFM4SEタスクであるのに対して、FMは他の多くのSEアクティビティに活用されていることを観察した。クラウドのデプロイに重点を置いているが、FMを圧縮し、小さなデバイスにデプロイすることへの関心が高まっている。
論文参考訳（メタデータ） (2024-10-11T17:27:04Z)
Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。手作業の削減の解決策としてリーダーボードの自動構築が登場しました
論文参考訳（メタデータ） (2024-09-19T11:12:27Z)
Synergizing Foundation Models and Federated Learning: A Survey [23.416321895575507]
本稿では,フェデレートラーニング(FL)とファンデーションモデル(FM)の融合の可能性と課題について論じる。 FLは、さまざまな参加者からのデータ可用性の障壁を破る、共同学習パラダイムである。プライバシを保護しながら、分散データセットを使用して、幅広いドメイン固有のタスクにFMをカスタマイズし、適応する有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-06-18T17:58:09Z)
On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文参考訳（メタデータ） (2024-06-14T14:37:52Z)
Foundation Model Sherpas: Guiding Foundation Models through Knowledge and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。 FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-02-02T18:00:35Z)
Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)
The Role of Federated Learning in a Wireless World with Foundation Models [59.8129893837421]
ファンデーションモデル(FM)は汎用人工知能(AI)モデルである。現在、FMと連邦学習(FL)の相互作用の探索はまだ初期段階にある。本稿では、FMが無線ネットワークよりもFLに適した範囲について検討し、その研究課題と機会について概観する。
論文参考訳（メタデータ） (2023-10-06T04:13:10Z)
VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文参考訳（メタデータ） (2023-07-06T17:47:52Z)
When Foundation Model Meets Federated Learning: Motivations, Challenges, and Future Directions [57.91211653592199]
ファンデーションモデル(FM)とフェデレートラーニング(FL)の交差点は、現実世界のアプリケーションに新たな可能性を開くユニークな機会を提供する。一方、FLは、協調学習パラダイムとして、データの可用性を拡大することで、FM開発における課題を解決するのに役立ちます。一方、事前訓練された知識と例外的な性能を備えたFMは、FLの堅牢な出発点として機能する。
論文参考訳（メタデータ） (2023-06-27T15:15:55Z)
ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning [73.47165576175541]
2tower Vision-Language (VL)モデルは、様々な下流タスクに有望な改善を示している。異なるレベルの訓練済みユニモーダル専門家の洞察を収集し、組み合わせた、新しいVLモデルアーキテクチャであるManageTowerを提案する。
論文参考訳（メタデータ） (2023-05-31T18:23:57Z)
Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文参考訳（メタデータ） (2021-06-07T17:13:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。