論文の概要: Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation
for Generative AI
- arxiv url: http://arxiv.org/abs/2401.14019v1
- Date: Thu, 25 Jan 2024 08:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:22:37.832481
- Title: Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation
for Generative AI
- Title(参考訳): Unitxt: フレキシブルで共有可能で再利用可能なデータ準備と生成AIの評価
- Authors: Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed,
Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera,
Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz
- Abstract要約: Unitxtは、生成言語モデルに適した、カスタマイズ可能なテキストデータ準備と評価のための革新的なライブラリである。
UnitxtはHFaceやLM-eval-harnessといった一般的なライブラリと統合されており、実践者間のカスタマイズや共有が容易である。
Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを構築し、共有し、前進することを可能にする。
- 参考スコア(独自算出の注目度): 15.220987187105607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the dynamic landscape of generative NLP, traditional text processing
pipelines limit research flexibility and reproducibility, as they are tailored
to specific dataset, task, and model combinations. The escalating complexity,
involving system prompts, model-specific formats, instructions, and more, calls
for a shift to a structured, modular, and customizable solution. Addressing
this need, we present Unitxt, an innovative library for customizable textual
data preparation and evaluation tailored to generative language models. Unitxt
natively integrates with common libraries like HuggingFace and LM-eval-harness
and deconstructs processing flows into modular components, enabling easy
customization and sharing between practitioners. These components encompass
model-specific formats, task prompts, and many other comprehensive dataset
processing definitions. The Unitxt-Catalog centralizes these components,
fostering collaboration and exploration in modern textual data workflows.
Beyond being a tool, Unitxt is a community-driven platform, empowering users to
build, share, and advance their pipelines collaboratively. Join the Unitxt
community at https://github.com/IBM/unitxt!
- Abstract(参考訳): 生成型nlpのダイナミックなランドスケープでは、従来のテキスト処理パイプラインは、特定のデータセット、タスク、モデルの組み合わせに合わせて、研究の柔軟性と再現性を制限する。
システムプロンプト、モデル固有のフォーマット、命令などを含む複雑さの増大は、構造化され、モジュール化され、カスタマイズ可能なソリューションへの移行を要求する。
このニーズに対処し,生成言語モデルに合わせたテキストデータ作成と評価をカスタマイズ可能な,革新的なライブラリであるunitxtを提案する。
unitxtはhughingfaceやlm-eval-harnessといった一般的なライブラリとネイティブに統合され、処理フローをモジュール化されたコンポーネントに分解する。
これらのコンポーネントは、モデル固有のフォーマット、タスクプロンプト、その他多くの包括的なデータセット処理定義を包含する。
Unitxt-Catalogはこれらのコンポーネントを集中化し、現代のテキストデータワークフローにおけるコラボレーションと探索を促進する。
Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを共同で構築、共有、前進することを可能にする。
Unitxtコミュニティにはhttps://github.com/IBM/unitxt!
関連論文リスト
- Interfacing Foundation Models' Embeddings [136.93591492633607]
FINDはファウンデーションモデルの埋め込みを調整するための汎用インターフェースである。
これは、同じアーキテクチャと重みの下で、検索、セグメンテーション、textitetc.にまたがる様々なタスクに適用される。
インターリーブされた埋め込み空間を考慮して,COCOデータセットに新たなトレーニングと評価アノテーションを導入したFIND-Benchを導入する。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained
Text Evaluation [11.690442820401453]
Threshは、きめ細かい評価のための統一的でカスタマイズ可能な、デプロイ可能なプラットフォームです。
Threshはコミュニティハブを提供する。コミュニティによって作成され、収集される、きめ細かいフレームワークとそれに対応するアノテーションのコレクションをホストする。
Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに対して、複数のオプションを提供している。
論文 参考訳(メタデータ) (2023-08-14T06:09:51Z) - COLLIE: Systematic Construction of Constrained Text Generation Tasks [33.300039566331876]
COLLIEは文法ベースのフレームワークで、多種多様な世代レベルのリッチで構成的な制約を仕様化することができる。
本研究では,制約構造と生テキストコーパスが与えられたタスクインスタンスの自動抽出ツールを開発する。
我々は、最先端の5つの言語モデルに対して体系的な実験を行い、その性能を分析し、欠点を明らかにする。
論文 参考訳(メタデータ) (2023-07-17T17:48:51Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Neural Composition: Learning to Generate from Multiple Models [13.072708028188465]
本稿では,各コンポーネントから生成プロセスがいつ起動するかを学習することで,モデル定義コンポーネントを組み合わせるシステムを提案する。
本稿では,各コンポーネントから生成プロセスがいつ起動するかを学習することで,モデル定義コンポーネントを組み合わせるシステムを提案する。
論文 参考訳(メタデータ) (2020-07-10T22:58:53Z) - MixingBoard: a Knowledgeable Stylized Integrated Text Generation
Platform [32.50773822686633]
MixingBoardは、知識に基づくスタイル付きテキスト生成に焦点を当てたデモを構築するためのプラットフォームである。
ローカル開発やリモートアクセス,WebページAPIなどのユーザインターフェースが提供されることで,ユーザが自身のデモを簡単に構築できるようになる。
論文 参考訳(メタデータ) (2020-05-17T20:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。