Fugu-MT 論文翻訳(概要): Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

論文の概要: Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

arxiv url: http://arxiv.org/abs/2401.14019v1
Date: Thu, 25 Jan 2024 08:57:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 15:22:37.832481
Title: Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI
Title（参考訳）: Unitxt: フレキシブルで共有可能で再利用可能なデータ準備と生成AIの評価
Authors: Elron Bandel, Yotam Perlitz, Elad Venezian, Roni Friedman-Melamed, Ofir Arviv, Matan Orbach, Shachar Don-Yehyia, Dafna Sheinwald, Ariel Gera, Leshem Choshen, Michal Shmueli-Scheuer, Yoav Katz
Abstract要約: Unitxtは、生成言語モデルに適した、カスタマイズ可能なテキストデータ準備と評価のための革新的なライブラリである。 UnitxtはHFaceやLM-eval-harnessといった一般的なライブラリと統合されており、実践者間のカスタマイズや共有が容易である。 Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを構築し、共有し、前進することを可能にする。
参考スコア（独自算出の注目度）: 15.220987187105607
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In the dynamic landscape of generative NLP, traditional text processing pipelines limit research flexibility and reproducibility, as they are tailored to specific dataset, task, and model combinations. The escalating complexity, involving system prompts, model-specific formats, instructions, and more, calls for a shift to a structured, modular, and customizable solution. Addressing this need, we present Unitxt, an innovative library for customizable textual data preparation and evaluation tailored to generative language models. Unitxt natively integrates with common libraries like HuggingFace and LM-eval-harness and deconstructs processing flows into modular components, enabling easy customization and sharing between practitioners. These components encompass model-specific formats, task prompts, and many other comprehensive dataset processing definitions. The Unitxt-Catalog centralizes these components, fostering collaboration and exploration in modern textual data workflows. Beyond being a tool, Unitxt is a community-driven platform, empowering users to build, share, and advance their pipelines collaboratively. Join the Unitxt community at https://github.com/IBM/unitxt!
Abstract（参考訳）: 生成型nlpのダイナミックなランドスケープでは、従来のテキスト処理パイプラインは、特定のデータセット、タスク、モデルの組み合わせに合わせて、研究の柔軟性と再現性を制限する。システムプロンプト、モデル固有のフォーマット、命令などを含む複雑さの増大は、構造化され、モジュール化され、カスタマイズ可能なソリューションへの移行を要求する。このニーズに対処し,生成言語モデルに合わせたテキストデータ作成と評価をカスタマイズ可能な,革新的なライブラリであるunitxtを提案する。 unitxtはhughingfaceやlm-eval-harnessといった一般的なライブラリとネイティブに統合され、処理フローをモジュール化されたコンポーネントに分解する。これらのコンポーネントは、モデル固有のフォーマット、タスクプロンプト、その他多くの包括的なデータセット処理定義を包含する。 Unitxt-Catalogはこれらのコンポーネントを集中化し、現代のテキストデータワークフローにおけるコラボレーションと探索を促進する。 Unitxtは、ツール以外にも、コミュニティ主導のプラットフォームで、ユーザがパイプラインを共同で構築、共有、前進することを可能にする。 Unitxtコミュニティにはhttps://github.com/IBM/unitxt!

関連論文リスト

Adaptive Orchestration of Modular Generative Information Access Systems [59.102816309859584]
将来のモジュラー生成情報アクセスシステムのアーキテクチャは、単に強力なコンポーネントを組み立てるだけでなく、自己組織化システムを実現するだろう、と我々は主張する。この観点は、IRコミュニティに適応的で自己最適化的で将来的なアーキテクチャを開発するためのモジュラーシステム設計を再考するよう促す。
論文参考訳（メタデータ） (2025-04-24T11:35:43Z)
Langformers: Unified NLP Pipelines for Language Models [3.690904966341072]
LangformersはオープンソースのPythonライブラリで、NLPパイプラインを合理化するように設計されている。会話型AI、事前学習、テキスト分類、文の埋め込み/更新、データラベリング、セマンティック検索、知識蒸留を結合型APIに統合する。
論文参考訳（メタデータ） (2025-04-12T10:17:49Z)
Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文参考訳（メタデータ） (2024-12-31T08:32:15Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
From LIMA to DeepLIMA: following a new path of interoperability [2.5764171991553795]
本稿では,LIMAフレームワークのアーキテクチャと,深層ニューラルネットワークに基づく新たなテキスト解析モジュールの追加による最近の進化について述べる。モデルは、Universal Dependencies 2.5 corpora、WikiNer corpora、CoNLL-03データセットで60以上の言語でトレーニングされた。ユビキタスなディープラーニング自然言語処理モデルの統合と標準アノテーション付きコレクションの使用は、相互運用性の新たなパスと見なすことができる。
論文参考訳（メタデータ） (2024-09-10T14:26:12Z)
MODOC: A Modular Interface for Flexible Interlinking of Text Retrieval and Text Generation Functions [8.624104798224085]
大きな言語モデル(LLM)は雄弁なテキストを生成するが、しばしばそれらが生成するコンテンツを検証する必要がある。従来の情報検索システムは、このタスクを補助するが、ほとんどのシステムはLLM生成クエリを念頭に設計されていない。モジュール型ユーザインタフェースであるMODOCについて述べる。
論文参考訳（メタデータ） (2024-08-26T20:36:52Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs [5.06113628525842]
ユーザとユーザインターフェース(UI)の仲介として機能するフレームワークを提案する。アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。我々のエンジンは、最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行することができる。
論文参考訳（メタデータ） (2024-02-07T21:08:49Z)
Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文参考訳（メタデータ） (2023-12-12T18:58:02Z)
CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。 CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文参考訳（メタデータ） (2023-05-31T05:24:48Z)
Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文参考訳（メタデータ） (2022-11-30T16:26:38Z)
A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文参考訳（メタデータ） (2021-03-02T16:19:44Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)
MixingBoard: a Knowledgeable Stylized Integrated Text Generation Platform [32.50773822686633]
MixingBoardは、知識に基づくスタイル付きテキスト生成に焦点を当てたデモを構築するためのプラットフォームである。ローカル開発やリモートアクセス,WebページAPIなどのユーザインターフェースが提供されることで,ユーザが自身のデモを簡単に構築できるようになる。
論文参考訳（メタデータ） (2020-05-17T20:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。