論文の概要: DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data
- arxiv url: http://arxiv.org/abs/2405.18315v1
- Date: Tue, 28 May 2024 16:07:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:50:12.388212
- Title: DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data
- Title(参考訳): DSDL:AIデータのモダリティとタスクをブリッジするためのデータセット記述言語
- Authors: Bin Wang, Linke Ouyang, Fan Wu, Wenchang Ning, Xiao Han, Zhiyuan Zhao, Jiahui Peng, Yiying Jiang, Dahua Lin, Conghui He,
- Abstract要約: 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用できないデータをレンダリングする。
本稿では,AIデータセットの統一標準を提供することにより,データセット処理の簡略化を目的としたフレームワークを紹介する。
DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。
- 参考スコア(独自算出の注目度): 50.88106211204689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of artificial intelligence, the diversity of data modalities and annotation formats often renders data unusable directly, requiring understanding and format conversion before it can be used by researchers or developers with different needs. To tackle this problem, this article introduces a framework called Dataset Description Language (DSDL) that aims to simplify dataset processing by providing a unified standard for AI datasets. DSDL adheres to the three basic practical principles of generic, portable, and extensible, using a unified standard to express data of different modalities and structures, facilitating the dissemination of AI data, and easily extending to new modalities and tasks. The standardized specifications of DSDL reduce the workload for users in data dissemination, processing, and usage. To further improve user convenience, we provide predefined DSDL templates for various tasks, convert mainstream datasets to comply with DSDL specifications, and provide comprehensive documentation and DSDL tools. These efforts aim to simplify the use of AI data, thereby improving the efficiency of AI development.
- Abstract(参考訳): 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用不可能なデータをレンダリングし、異なるニーズを持つ研究者や開発者が使用する前に、理解とフォーマット変換を必要とする。
この問題に対処するため,本稿では,AIデータセットの統一標準を提供することで,データセット処理を簡素化することを目的とした,データセット記述言語(DSDL)というフレームワークを紹介する。
DSDLは、汎用的でポータブルで拡張可能な3つの基本的な実践原則に準拠しており、異なるモダリティと構造のデータを統一された標準を使用して表現し、AIデータの拡散を容易にし、新しいモダリティとタスクに容易に拡張する。
DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。
ユーザの利便性をさらに向上するため、各種タスクのための事前定義されたDSDLテンプレートを提供し、メインストリームのデータセットをDSDL仕様に適合させるとともに、包括的なドキュメントとDSDLツールを提供する。
これらの取り組みは、AIデータの使用を簡素化し、AI開発の効率を向上させることを目的としている。
関連論文リスト
- A Text-Based Knowledge-Embedded Soft Sensing Modeling Approach for General Industrial Process Tasks Based on Large Language Model [16.842988666530204]
データ駆動型ソフトセンサー(DDSS)は、プロセス産業において重要なパフォーマンス指標を予測する主要な手法となっている。
開発には、モデリングプロセス中に様々なタスクに合わせてカスタマイズされた複雑でコストがかかる設計が必要である。
本稿では,LLM-TKESS(テキストベース知識埋め込み型ソフトセンシングのための大規模言語モデル)というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-09T08:59:14Z) - LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。
TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models [38.59653405736706]
可変オートエンコーダ(VAE)に基づく制御可能なデータ合成フレームワークDiffLMを紹介する。
我々は,DiffLMが高品質なデータを生成し,ダウンストリームタスクの性能が実データよりも27%向上していることを示す。
論文 参考訳(メタデータ) (2024-11-05T16:47:53Z) - Federated Data-Efficient Instruction Tuning for Large Language Models [34.35613476734293]
大規模言語モデルのためのフェデレーションデータ効率インストラクションチューニングであるFedHDSについて述べる。
これにより、クライアント内およびクライアント間レベルでのデータサンプルの冗長性が低下する。
実験により、FedHDSは微調整に必要なデータ量を著しく削減し、命令調整LDMの応答性を改善した。
論文 参考訳(メタデータ) (2024-10-14T15:05:51Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - LLMs with User-defined Prompts as Generic Data Operators for Reliable
Data Processing [13.901862478287509]
汎用データ演算子(LLM-GDO)として機能する大規模言語モデル(LLM)を提案する。
LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。
ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-26T23:08:38Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。