論文の概要: DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data
- arxiv url: http://arxiv.org/abs/2405.18315v1
- Date: Tue, 28 May 2024 16:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:50:12.388212
- Title: DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data
- Title(参考訳): DSDL:AIデータのモダリティとタスクをブリッジするためのデータセット記述言語
- Authors: Bin Wang, Linke Ouyang, Fan Wu, Wenchang Ning, Xiao Han, Zhiyuan Zhao, Jiahui Peng, Yiying Jiang, Dahua Lin, Conghui He,
- Abstract要約: 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用できないデータをレンダリングする。
本稿では,AIデータセットの統一標準を提供することにより,データセット処理の簡略化を目的としたフレームワークを紹介する。
DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。
- 参考スコア(独自算出の注目度): 50.88106211204689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of artificial intelligence, the diversity of data modalities and annotation formats often renders data unusable directly, requiring understanding and format conversion before it can be used by researchers or developers with different needs. To tackle this problem, this article introduces a framework called Dataset Description Language (DSDL) that aims to simplify dataset processing by providing a unified standard for AI datasets. DSDL adheres to the three basic practical principles of generic, portable, and extensible, using a unified standard to express data of different modalities and structures, facilitating the dissemination of AI data, and easily extending to new modalities and tasks. The standardized specifications of DSDL reduce the workload for users in data dissemination, processing, and usage. To further improve user convenience, we provide predefined DSDL templates for various tasks, convert mainstream datasets to comply with DSDL specifications, and provide comprehensive documentation and DSDL tools. These efforts aim to simplify the use of AI data, thereby improving the efficiency of AI development.
- Abstract(参考訳): 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用不可能なデータをレンダリングし、異なるニーズを持つ研究者や開発者が使用する前に、理解とフォーマット変換を必要とする。
この問題に対処するため,本稿では,AIデータセットの統一標準を提供することで,データセット処理を簡素化することを目的とした,データセット記述言語(DSDL)というフレームワークを紹介する。
DSDLは、汎用的でポータブルで拡張可能な3つの基本的な実践原則に準拠しており、異なるモダリティと構造のデータを統一された標準を使用して表現し、AIデータの拡散を容易にし、新しいモダリティとタスクに容易に拡張する。
DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。
ユーザの利便性をさらに向上するため、各種タスクのための事前定義されたDSDLテンプレートを提供し、メインストリームのデータセットをDSDL仕様に適合させるとともに、包括的なドキュメントとDSDLツールを提供する。
これらの取り組みは、AIデータの使用を簡素化し、AI開発の効率を向上させることを目的としている。
関連論文リスト
- DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models [38.59653405736706]
可変オートエンコーダ(VAE)に基づく制御可能なデータ合成フレームワークDiffLMを紹介する。
我々は,DiffLMが高品質なデータを生成し,ダウンストリームタスクの性能が実データよりも27%向上していることを示す。
論文 参考訳(メタデータ) (2024-11-05T16:47:53Z) - Federated Data-Efficient Instruction Tuning for Large Language Models [34.35613476734293]
大規模言語モデルのためのフェデレーションデータ効率インストラクションチューニングであるFedHDSについて述べる。
これにより、クライアント内およびクライアント間レベルでのデータサンプルの冗長性が低下する。
実験により、FedHDSは微調整に必要なデータ量を著しく削減し、命令調整LDMの応答性を改善した。
論文 参考訳(メタデータ) (2024-10-14T15:05:51Z) - Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis [39.57537769578304]
本稿では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。
IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、より流動的で多様な擬似ラベルデータを生成することである。
IDGは5つのベースラインABSAモデルの間で一貫した、重要なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2024-06-29T07:00:37Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - LLMs with User-defined Prompts as Generic Data Operators for Reliable
Data Processing [13.901862478287509]
汎用データ演算子(LLM-GDO)として機能する大規模言語モデル(LLM)を提案する。
LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。
ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-26T23:08:38Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。