論文の概要: Reliable, Reproducible, and Really Fast Leaderboards with Evalica
- arxiv url: http://arxiv.org/abs/2412.11314v1
- Date: Sun, 15 Dec 2024 21:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:40.593907
- Title: Reliable, Reproducible, and Really Fast Leaderboards with Evalica
- Title(参考訳): Evalicaを使った信頼性、再現性、そして本当に高速なリーダーボード
- Authors: Dmitry Ustalov,
- Abstract要約: 信頼性と再現性のあるモデルリーダーボードの作成を容易にするオープンソースツールキットであるEvalicaを紹介します。
本稿では,その設計を示し,その性能を評価し,Webインターフェース,コマンドラインインターフェース,Python APIによるユーザビリティを実証する。
- 参考スコア(独自算出の注目度): 8.381036019784734
- License:
- Abstract: The rapid advancement of natural language processing (NLP) technologies, such as instruction-tuned large language models (LLMs), urges the development of modern evaluation protocols with human and machine feedback. We introduce Evalica, an open-source toolkit that facilitates the creation of reliable and reproducible model leaderboards. This paper presents its design, evaluates its performance, and demonstrates its usability through its Web interface, command-line interface, and Python API.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)のような自然言語処理(NLP)技術の急速な進歩は、人間と機械のフィードバックによる現代的な評価プロトコルの開発を促している。
信頼性と再現性のあるモデルリーダーボードの作成を容易にするオープンソースツールキットであるEvalicaを紹介します。
本稿では,その設計を示し,その性能を評価し,Webインターフェース,コマンドラインインターフェース,Python APIによるユーザビリティを実証する。
関連論文リスト
- PyGen: A Collaborative Human-AI Approach to Python Package Creation [1.3348326328808557]
Pygenは、研究者、技術者、ホビイストに、Pythonで書かれた中核的で有用なソフトウェアツールとして抽象的なアイデアを人生に持ち込むための自動化プラットフォームである。
最先端の言語モデルとオープンソースのコード生成技術を組み合わせることで、Pygenはツール開発のマニュアルオーバーヘッドを大幅に削減した。
論文 参考訳(メタデータ) (2024-11-13T03:16:18Z) - OS-ATLAS: A Foundation Action Model for Generalist GUI Agents [55.37173845836839]
OS-AtlasはGUIグラウンディングとOODエージェントタスクに優れた基礎的なGUIアクションモデルである。
現在までに1300万以上のGUI要素を含む、オープンソースのクロスプラットフォームGUI基盤コーパスをリリースしています。
論文 参考訳(メタデータ) (2024-10-30T17:10:19Z) - Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation [22.467879240959686]
品質、コスト、時間、データのプライバシなど、いくつかのパフォーマンス基準で、プログラミングフィードバック生成のための言語モデルをベンチマークします。
我々は,GPT-4生成合成データに基づく微調整パイプラインを開発した。
WebLLMのブラウザ内推論エンジンを用いた微調整Llama3-8BとPhi3-3.8B 4ビット量子化モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-06-07T16:22:51Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - dFlow: A Domain Specific Language for the Rapid Development of
open-source Virtual Assistants [1.2277343096128712]
タスク固有のVAを低コードで作成するためのフレームワークである textitdFlow を提案する。
本稿では,システムに依存しないVAメタモデル,開発した文法,およびスマートVAの開発と展開に必要なプロセスについて述べる。
さらに便利にするために、クラウドネイティブアーキテクチャを作成して、Discordプラットフォームを通じて公開しています。
論文 参考訳(メタデータ) (2023-10-03T14:46:33Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z) - EXPATS: A Toolkit for Explainable Automated Text Scoring [2.299617836036273]
ユーザが様々なATSモデルを迅速に開発、実験できるオープンソースフレームワークであるEXPATSについて紹介する。
また、このツールキットはLanguage Interpretability Tool(LIT)とシームレスに統合できるため、モデルとその予測を解釈および視覚化できます。
論文 参考訳(メタデータ) (2021-04-07T19:29:06Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。