論文の概要: Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation
for Generative AI
- arxiv url: http://arxiv.org/abs/2401.14019v1
- Date: Thu, 25 Jan 2024 08:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:22:37.832481
- Title: Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation
for Generative AI
- Title(参考訳): Unitxt: フレキシブルで共有可能で再利用可能なデータ準備と生成AIの評価
- Authors: Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed,
Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera,
Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz
- Abstract要約: Unitxtは、生成言語モデルに適した、カスタマイズ可能なテキストデータ準備と評価のための革新的なライブラリである。
UnitxtはHFaceやLM-eval-harnessといった一般的なライブラリと統合されており、実践者間のカスタマイズや共有が容易である。
Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを構築し、共有し、前進することを可能にする。
- 参考スコア(独自算出の注目度): 15.220987187105607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the dynamic landscape of generative NLP, traditional text processing
pipelines limit research flexibility and reproducibility, as they are tailored
to specific dataset, task, and model combinations. The escalating complexity,
involving system prompts, model-specific formats, instructions, and more, calls
for a shift to a structured, modular, and customizable solution. Addressing
this need, we present Unitxt, an innovative library for customizable textual
data preparation and evaluation tailored to generative language models. Unitxt
natively integrates with common libraries like HuggingFace and LM-eval-harness
and deconstructs processing flows into modular components, enabling easy
customization and sharing between practitioners. These components encompass
model-specific formats, task prompts, and many other comprehensive dataset
processing definitions. The Unitxt-Catalog centralizes these components,
fostering collaboration and exploration in modern textual data workflows.
Beyond being a tool, Unitxt is a community-driven platform, empowering users to
build, share, and advance their pipelines collaboratively. Join the Unitxt
community at https://github.com/IBM/unitxt!
- Abstract(参考訳): 生成型nlpのダイナミックなランドスケープでは、従来のテキスト処理パイプラインは、特定のデータセット、タスク、モデルの組み合わせに合わせて、研究の柔軟性と再現性を制限する。
システムプロンプト、モデル固有のフォーマット、命令などを含む複雑さの増大は、構造化され、モジュール化され、カスタマイズ可能なソリューションへの移行を要求する。
このニーズに対処し,生成言語モデルに合わせたテキストデータ作成と評価をカスタマイズ可能な,革新的なライブラリであるunitxtを提案する。
unitxtはhughingfaceやlm-eval-harnessといった一般的なライブラリとネイティブに統合され、処理フローをモジュール化されたコンポーネントに分解する。
これらのコンポーネントは、モデル固有のフォーマット、タスクプロンプト、その他多くの包括的なデータセット処理定義を包含する。
Unitxt-Catalogはこれらのコンポーネントを集中化し、現代のテキストデータワークフローにおけるコラボレーションと探索を促進する。
Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを共同で構築、共有、前進することを可能にする。
Unitxtコミュニティにはhttps://github.com/IBM/unitxt!
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - From LIMA to DeepLIMA: following a new path of interoperability [2.5764171991553795]
本稿では,LIMAフレームワークのアーキテクチャと,深層ニューラルネットワークに基づく新たなテキスト解析モジュールの追加による最近の進化について述べる。
モデルは、Universal Dependencies 2.5 corpora、WikiNer corpora、CoNLL-03データセットで60以上の言語でトレーニングされた。
ユビキタスなディープラーニング自然言語処理モデルの統合と標準アノテーション付きコレクションの使用は、相互運用性の新たなパスと見なすことができる。
論文 参考訳(メタデータ) (2024-09-10T14:26:12Z) - MODOC: A Modular Interface for Flexible Interlinking of Text Retrieval and Text Generation Functions [8.624104798224085]
大きな言語モデル(LLM)は雄弁なテキストを生成するが、しばしばそれらが生成するコンテンツを検証する必要がある。
従来の情報検索システムは、このタスクを補助するが、ほとんどのシステムはLLM生成クエリを念頭に設計されていない。
モジュール型ユーザインタフェースであるMODOCについて述べる。
論文 参考訳(メタデータ) (2024-08-26T20:36:52Z) - Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。
アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。
我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文 参考訳(メタデータ) (2024-02-07T21:08:49Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - MixingBoard: a Knowledgeable Stylized Integrated Text Generation
Platform [32.50773822686633]
MixingBoardは、知識に基づくスタイル付きテキスト生成に焦点を当てたデモを構築するためのプラットフォームである。
ローカル開発やリモートアクセス,WebページAPIなどのユーザインターフェースが提供されることで,ユーザが自身のデモを簡単に構築できるようになる。
論文 参考訳(メタデータ) (2020-05-17T20:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。