論文の概要: Large Language Models to the Rescue: Reducing the Complexity in
Scientific Workflow Development Using ChatGPT
- arxiv url: http://arxiv.org/abs/2311.01825v1
- Date: Fri, 3 Nov 2023 10:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 14:37:30.141417
- Title: Large Language Models to the Rescue: Reducing the Complexity in
Scientific Workflow Development Using ChatGPT
- Title(参考訳): 大規模言語モデルによる救助: chatgptを用いた科学的ワークフロー開発における複雑さの低減
- Authors: Mario S\"anger, Ninon De Mecquenem, Katarzyna Ewa Lewi\'nska, Vasilis
Bountris, Fabian Lehmann, Ulf Leser, Thomas Kosch
- Abstract要約: 科学システムは、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。
しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、実装は難しい。
本研究では,大規模言語モデル,特にChatGPTの効率性を検討した。
- 参考スコア(独自算出の注目度): 11.410608233274942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific workflow systems are increasingly popular for expressing and
executing complex data analysis pipelines over large datasets, as they offer
reproducibility, dependability, and scalability of analyses by automatic
parallelization on large compute clusters. However, implementing workflows is
difficult due to the involvement of many black-box tools and the deep
infrastructure stack necessary for their execution. Simultaneously,
user-supporting tools are rare, and the number of available examples is much
lower than in classical programming languages. To address these challenges, we
investigate the efficiency of Large Language Models (LLMs), specifically
ChatGPT, to support users when dealing with scientific workflows. We performed
three user studies in two scientific domains to evaluate ChatGPT for
comprehending, adapting, and extending workflows. Our results indicate that
LLMs efficiently interpret workflows but achieve lower performance for
exchanging components or purposeful workflow extensions. We characterize their
limitations in these challenging scenarios and suggest future research
directions.
- Abstract(参考訳): 科学ワークフローシステムは、大規模な計算クラスタ上での自動並列化による分析の再現性、信頼性、スケーラビリティを提供するため、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。
しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、ワークフローの実装は難しい。
同時に、ユーザサポートツールはまれであり、利用可能なサンプルの数は、古典的なプログラミング言語よりもはるかに少ない。
これらの課題に対処するために,我々は,大規模言語モデル(llm,特にchatgpt)の効率を,科学的なワークフローを扱うユーザを支援するために調査する。
2つの科学領域で3つのユーザスタディを行い、ワークフローの理解、適応、拡張のためのChatGPTを評価した。
その結果,LLMは効率よくワークフローを解釈するが,コンポーネントの交換やワークフロー拡張のための性能は低下することがわかった。
これらのシナリオにおいて,これらの制限を特徴付け,今後の研究方向性を提案する。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - From Summary to Action: Enhancing Large Language Models for Complex
Tasks with Open World APIs [62.496139001509114]
大規模な現実世界のAPIを制御するために設計された新しいツール呼び出しパイプラインを導入します。
このパイプラインは人間のタスク解決プロセスを反映し、複雑な実際のユーザクエリに対処する。
ToolBenchベンチマークにおけるSum2Actパイプラインの実証的な評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-02-28T08:42:23Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - A Survey on Hardware Accelerators for Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理タスクの強力なツールとして登場した。
スケールと複雑さに関連する計算上の課題に対処する必要がある。
論文 参考訳(メタデータ) (2024-01-18T11:05:03Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Reusability Challenges of Scientific Workflows: A Case Study for Galaxy [56.78572674167333]
本研究では,既存の再使用可能性について検討し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールのサポート、設計上の欠陥、不完全性、ワークフローのロードの失敗などが含まれる。
論文 参考訳(メタデータ) (2023-09-13T20:17:43Z) - Towards Lightweight Data Integration using Multi-workflow Provenance and
Data Observability [0.2517763905487249]
統合データ分析は、特に現在のAI時代において、科学的発見において重要な役割を果たす。
軽量ランタイム向けマルチワークフロー統合データ分析手法MIDAを提案する。
Summitスーパーコンピュータの1,680個のCPUコア上で,最大10000のタスクを実行するほぼゼロのオーバーヘッドを示す。
論文 参考訳(メタデータ) (2023-08-17T14:20:29Z) - Power-up! What Can Generative Models Do for Human Computation Workflows? [13.484359389266864]
クラウドソーシングの一環としての大規模言語モデル(LLM)の調査は、まだ未調査の領域である。
実証的な観点から、LLMがクラウドソーシングの有効性をどのように改善できるかについては、現時点ではほとんど分かっていない。
論文 参考訳(メタデータ) (2023-07-05T12:35:29Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。