Fugu-MT 論文翻訳(概要): Leveraging Large Language Model for Automatic Evolving of Industrial Data-Centric R&D Cycle

論文の概要: Leveraging Large Language Model for Automatic Evolving of Industrial Data-Centric R&D Cycle

arxiv url: http://arxiv.org/abs/2310.11249v1
Date: Tue, 17 Oct 2023 13:18:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 15:51:41.481159
Title: Leveraging Large Language Model for Automatic Evolving of Industrial Data-Centric R&D Cycle
Title（参考訳）: 産業データ中心R&Dサイクルの自動進化のための大規模言語モデルの導入
Authors: Xu Yang, Xiao Yang, Weiqing Liu, Jinhui Li, Peng Yu, Zeqi Ye, Jiang Bian
Abstract要約: データ駆動型ソリューションは、無数の産業課題に対処するための強力なツールとして登場しています。データ中心のR&Dはこれらのソリューションを活用する上で重要な役割を担っているが、人間、計算、時間資源といった面では大きなコストが伴うことが多い。本稿では,データ中心R&Dの進化サイクルを早めるために,大規模言語モデル(LLM)の可能性について検討する。
参考スコア（独自算出の注目度）: 20.30730316993658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the wake of relentless digital transformation, data-driven solutions are emerging as powerful tools to address multifarious industrial tasks such as forecasting, anomaly detection, planning, and even complex decision-making. Although data-centric R&D has been pivotal in harnessing these solutions, it often comes with significant costs in terms of human, computational, and time resources. This paper delves into the potential of large language models (LLMs) to expedite the evolution cycle of data-centric R&D. Assessing the foundational elements of data-centric R&D, including heterogeneous task-related data, multi-facet domain knowledge, and diverse computing-functional tools, we explore how well LLMs can understand domain-specific requirements, generate professional ideas, utilize domain-specific tools to conduct experiments, interpret results, and incorporate knowledge from past endeavors to tackle new challenges. We take quantitative investment research as a typical example of industrial data-centric R&D scenario and verified our proposed framework upon our full-stack open-sourced quantitative research platform Qlib and obtained promising results which shed light on our vision of automatic evolving of industrial data-centric R&D cycle.
Abstract（参考訳）: 無関係なデジタルトランスフォーメーションの結果として、データ駆動ソリューションは、予測、異常検出、計画、さらには複雑な意思決定といった多種多様な産業タスクに対処する強力なツールとして登場しています。データ中心のR&Dはこれらのソリューションを活用する上で重要な役割を担っているが、人間、計算、時間資源といった面では大きなコストが伴うことが多い。本稿では,データ中心R&Dの進化サイクルを早めるために,大規模言語モデル(LLM)の可能性を検討する。ヘテロジニアスなタスク関連データ、多面的ドメイン知識、多様なコンピューティング機能ツールなど、データ中心のR&Dの基礎的要素を評価し、LLMがドメイン固有の要件をどのように理解し、プロフェッショナルなアイデアを生成し、ドメイン固有のツールを使用して実験を行い、結果を解釈し、過去の取り組みから得た知識を取り入れて、新たな課題に取り組みます。我々は、産業データ中心R&Dシナリオの典型例として量的投資研究を取り上げ、我々のフルスタックのオープンソースの量的研究プラットフォームQlib上で提案された枠組みを検証し、産業データ中心R&Dサイクルの自動進化というビジョンに光を当てた有望な結果を得た。

関連論文リスト

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。 DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文参考訳（メタデータ） (2025-09-29T17:23:08Z)
A Survey of AI for Materials Science: Foundation Models, LLM Agents, Datasets, and Tools [15.928285656168422]
ファンデーションモデル(FM)は、科学的発見のためにスケーラブルで汎用的でマルチモーダルなAIシステムを実現する。この調査は、この成長分野をサポートする基盤モデル、エージェントシステム、データセット、計算ツールの包括的概要を提供する。
論文参考訳（メタデータ） (2025-06-25T18:10:30Z)
Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文参考訳（メタデータ） (2025-06-11T03:29:18Z)
A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。本調査は,様々な実世界のデータ形式を体系的に分析する。さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文参考訳（メタデータ） (2025-02-13T04:53:17Z)
Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文参考訳（メタデータ） (2025-01-27T10:04:10Z)
Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。 CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文参考訳（メタデータ） (2025-01-17T17:51:22Z)
A Survey on Large Language Model-based Agents for Statistics and Data Science [7.240586338370509]
LLM(Large Language Models)を利用したデータサイエンスエージェントは、従来のデータ分析パラダイムを変える大きな可能性を示している。この調査は、LLMベースのデータエージェントの進化、機能、および応用の概要を提供する。
論文参考訳（メタデータ） (2024-12-18T15:03:26Z)
Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文参考訳（メタデータ） (2024-11-07T22:11:51Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文参考訳（メタデータ） (2024-04-23T13:38:01Z)
AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文参考訳（メタデータ） (2024-04-15T12:01:42Z)
Integration of Domain Expert-Centric Ontology Design into the CRISP-DM for Cyber-Physical Production Systems [45.05372822216111]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文参考訳（メタデータ） (2023-07-21T15:04:00Z)
Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文参考訳（メタデータ） (2023-06-23T15:15:13Z)
Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文参考訳（メタデータ） (2022-09-28T18:51:59Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Data and its (dis)contents: A survey of dataset development and use in machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文参考訳（メタデータ） (2020-12-09T22:13:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。