論文の概要: LEGOEval: An Open-Source Toolkit for Dialogue System Evaluation via
Crowdsourcing
- arxiv url: http://arxiv.org/abs/2105.01992v1
- Date: Wed, 5 May 2021 11:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:42:56.499780
- Title: LEGOEval: An Open-Source Toolkit for Dialogue System Evaluation via
Crowdsourcing
- Title(参考訳): LEGOEval: クラウドソーシングによる対話システム評価のためのオープンソースツールキット
- Authors: Yu Li, Josh Arnold, Feifan Yan, Weiyan Shi and Zhou Yu
- Abstract要約: LEGOEvalは、オンラインクラウドソースプラットフォームであるAmazon Mechanical Turkを使用して、数行のコードで対話システムを評価することができるツールだ。
既存のツールキットとは異なり、legoevalは一般的なreact.jsインターフェースコンポーネントにマップするpython apiを提供することで、柔軟なタスク設計を提供する。
- 参考スコア(独自算出の注目度): 39.64597591645872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LEGOEval, an open-source toolkit that enables researchers to
easily evaluate dialogue systems in a few lines of code using the online
crowdsource platform, Amazon Mechanical Turk. Compared to existing toolkits,
LEGOEval features a flexible task design by providing a Python API that maps to
commonly used React.js interface components. Researchers can personalize their
evaluation procedures easily with our built-in pages as if playing with LEGO
blocks. Thus, LEGOEval provides a fast, consistent method for reproducing human
evaluation results. Besides the flexible task design, LEGOEval also offers an
easy API to review collected data.
- Abstract(参考訳): オンラインクラウドソースプラットフォームであるamazon mechanical turkを使って、研究者が対話システムを数行のコードで簡単に評価できるオープンソースツールキットであるlegoevalを提案する。
既存のツールキットと比較してlegoevalは、一般的なreact.jsインターフェースコンポーネントにマップするpython apiを提供することで、柔軟なタスク設計を特徴としている。
LEGOブロックで遊ぶときのように、内蔵のページで評価手順を簡単にパーソナライズできます。
このようにLEGOEvalは、人間の評価結果を高速で一貫した再現方法を提供する。
柔軟なタスクデザインに加えて、LEGOEvalは収集したデータを簡単にレビューできるAPIも提供する。
関連論文リスト
- SLEGO: A Collaborative Data Analytics System with LLM Recommender for Diverse Users [0.0]
SLEGOは、経験豊富な開発者と初心者のギャップを埋める、共同分析プラットフォームである。
これにより、開発者は分析ツールを共有できると同時に、初心者のユーザはプログラミングスキルを使わずに包括的な分析パイプラインを構築することができる。
論文 参考訳(メタデータ) (2024-06-17T05:59:13Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z) - Evalverse: Unified and Accessible Library for Large Language Model Evaluation [8.49602675597486]
EvalverseはLarge Language Models (LLMs) の評価を効率化する新しいライブラリである。
Evalverseは、人工知能に関する限られた知識を持つ個人がLLMの評価を簡単に要求し、詳細な報告を受け取ることを可能にする。
Evalverseのデモビデオを公開し、その機能と実装を2分間のフォーマットで示す。
論文 参考訳(メタデータ) (2024-04-01T06:03:39Z) - Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Break and Make: Interactive Structural Understanding Using LEGO Bricks [61.01136603613139]
私たちは、LEGOモデルの組み立て、分解、操作が可能な、完全にインタラクティブな3Dシミュレータを構築しました。
シーケンス・ツー・シーケンス・モデルを用いてこの問題を解決するための第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-07-27T18:33:09Z) - LAGOON: An Analysis Tool for Open Source Communities [7.3861897382622015]
LAGOONはオープンソースソフトウェア(OSS)コミュニティのエコシステムを理解するためのオープンソースプラットフォームである。
LAGOONはソースコードリポジトリ、イシュートラッカ、メーリングリスト、ウェブサイトからのコンテンツスクラップなど、いくつかの一般的なソースからアーティファクトを取り込みます。
OSSプロジェクトの完全な社会技術グラフの可視化と探索のためのユーザインターフェースを提供する。
論文 参考訳(メタデータ) (2022-01-26T18:52:11Z) - COOKIE: A Dataset for Conversational Recommendation over Knowledge
Graphs in E-commerce [64.95907840457471]
我々は,COOKIEと呼ばれる電子商取引プラットフォームにおける知識グラフに対する対話的推薦のための新しいデータセットを提案する。
データセットはAmazonのレビューコーパスから構築され、ユーザエージェント対話とカスタムナレッジグラフを統合してレコメンデーションする。
論文 参考訳(メタデータ) (2020-08-21T00:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。