Fugu-MT 論文翻訳(概要): DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data

論文の概要: DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data

arxiv url: http://arxiv.org/abs/2405.18315v1
Date: Tue, 28 May 2024 16:07:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 17:50:12.388212
Title: DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data
Title（参考訳）: DSDL:AIデータのモダリティとタスクをブリッジするためのデータセット記述言語
Authors: Bin Wang, Linke Ouyang, Fan Wu, Wenchang Ning, Xiao Han, Zhiyuan Zhao, Jiahui Peng, Yiying Jiang, Dahua Lin, Conghui He,
Abstract要約: 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用できないデータをレンダリングする。本稿では,AIデータセットの統一標準を提供することにより,データセット処理の簡略化を目的としたフレームワークを紹介する。 DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。
参考スコア（独自算出の注目度）: 50.88106211204689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the era of artificial intelligence, the diversity of data modalities and annotation formats often renders data unusable directly, requiring understanding and format conversion before it can be used by researchers or developers with different needs. To tackle this problem, this article introduces a framework called Dataset Description Language (DSDL) that aims to simplify dataset processing by providing a unified standard for AI datasets. DSDL adheres to the three basic practical principles of generic, portable, and extensible, using a unified standard to express data of different modalities and structures, facilitating the dissemination of AI data, and easily extending to new modalities and tasks. The standardized specifications of DSDL reduce the workload for users in data dissemination, processing, and usage. To further improve user convenience, we provide predefined DSDL templates for various tasks, convert mainstream datasets to comply with DSDL specifications, and provide comprehensive documentation and DSDL tools. These efforts aim to simplify the use of AI data, thereby improving the efficiency of AI development.
Abstract（参考訳）: 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用不可能なデータをレンダリングし、異なるニーズを持つ研究者や開発者が使用する前に、理解とフォーマット変換を必要とする。この問題に対処するため,本稿では,AIデータセットの統一標準を提供することで,データセット処理を簡素化することを目的とした,データセット記述言語(DSDL)というフレームワークを紹介する。 DSDLは、汎用的でポータブルで拡張可能な3つの基本的な実践原則に準拠しており、異なるモダリティと構造のデータを統一された標準を使用して表現し、AIデータの拡散を容易にし、新しいモダリティとタスクに容易に拡張する。 DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。ユーザの利便性をさらに向上するため、各種タスクのための事前定義されたDSDLテンプレートを提供し、メインストリームのデータセットをDSDL仕様に適合させるとともに、包括的なドキュメントとDSDLツールを提供する。これらの取り組みは、AIデータの使用を簡素化し、AI開発の効率を向上させることを目的としている。

関連論文リスト

TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes [25.05627023905607]
モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
論文参考訳（メタデータ） (2025-05-16T14:03:30Z)
A New Paradigm of User-Centric Wireless Communication Driven by Large Language Models [53.16213723669751]
次世代の無線通信は、人工知能とユーザー中心の通信ネットワークを深く統合しようとしている。本稿では,構造化クエリ言語に対する自然言語を革新的に取り入れた,無線通信のための新しいパラダイムを提案する。本稿では,物理層における動的意味表現ネットワークを符号化深度に適応させてユーザ要求を満たすプロトタイプシステムを提案する。
論文参考訳（メタデータ） (2025-04-16T01:43:36Z)
Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models [22.16558378953053]
我々は、人間による命令から得られた最先端の命令チューニングデータセットを構築した。 LLMは私たちのデータセットで微調整され、既存のデータセットで微調整されています。分析によれば、新しい言語での命令チューニングにより、LLMは命令に従うことができるが、チューニングされたモデルは、その言語における文化固有の知識の欠如を顕著に示している。
論文参考訳（メタデータ） (2025-03-31T04:28:38Z)
A Text-Based Knowledge-Embedded Soft Sensing Modeling Approach for General Industrial Process Tasks Based on Large Language Model [16.842988666530204]
データ駆動型ソフトセンサー(DDSS)は、プロセス産業において重要なパフォーマンス指標を予測する主要な手法となっている。開発には、モデリングプロセス中に様々なタスクに合わせてカスタマイズされた複雑でコストがかかる設計が必要である。本稿では,LLM-TKESS(テキストベース知識埋め込み型ソフトセンシングのための大規模言語モデル)というフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-09T08:59:14Z)
LLMs for Generalizable Language-Conditioned Policy Learning under Minimal Data Requirements [50.544186914115045]
本稿では,オフライン言語によるポリシー学習のための新しいトレーニングパイプラインTEDUOを提案する。 TEDUOは、分かりやすい、ラベルなしのデータセットを運用し、いわゆるインザワイルド評価(in-the-wild evaluation)に適している。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models [38.59653405736706]
可変オートエンコーダ(VAE)に基づく制御可能なデータ合成フレームワークDiffLMを紹介する。我々は,DiffLMが高品質なデータを生成し,ダウンストリームタスクの性能が実データよりも27%向上していることを示す。
論文参考訳（メタデータ） (2024-11-05T16:47:53Z)
Federated Data-Efficient Instruction Tuning for Large Language Models [34.35613476734293]
大規模言語モデルのためのフェデレーションデータ効率インストラクションチューニングであるFedHDSについて述べる。これにより、クライアント内およびクライアント間レベルでのデータサンプルの冗長性が低下する。実験により、FedHDSは微調整に必要なデータ量を著しく削減し、命令調整LDMの応答性を改善した。
論文参考訳（メタデータ） (2024-10-14T15:05:51Z)
Iterative Data Generation with Large Language Models for Aspect-based Sentiment Analysis [39.57537769578304]
本稿では,ABSAの性能向上を図るために,IDGという系統的反復データ生成フレームワークを提案する。 IDGの中核は、LLMの強力な能力(命令追従、文脈内学習、自己回帰)を最大限に活用して、より流動的で多様な擬似ラベルデータを生成することである。 IDGは5つのベースラインABSAモデルの間で一貫した、重要なパフォーマンス向上をもたらす。
論文参考訳（メタデータ） (2024-06-29T07:00:37Z)
OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。 OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文参考訳（メタデータ） (2024-06-04T10:42:01Z)
Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文参考訳（メタデータ） (2024-04-22T17:15:32Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
LLMs with User-defined Prompts as Generic Data Operators for Reliable Data Processing [13.901862478287509]
汎用データ演算子(LLM-GDO)として機能する大規模言語モデル(LLM)を提案する。 LLM-GDO設計パターンでは、ユーザ定義プロンプト(UDP)は特定のプログラミング言語の実装ではなく、データ処理ロジックを表現するために使われる。ドメイン固有のデータによる微調整 LLM は、データ処理の知識を意識するドメイン固有のタスクの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-26T23:08:38Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。