論文の概要: An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability
- arxiv url: http://arxiv.org/abs/2502.03511v1
- Date: Wed, 05 Feb 2025 17:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:39.873711
- Title: An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability
- Title(参考訳): ミッションエンジニアリングにおける問題定式化タスクを支援するChatGPTの実証的探索と性能変動の文書化
- Authors: Max Ofsa, Taylan G. Topcu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の品質と整合性について考察する。
我々は、関連する参照問題、NASAの宇宙ミッション設計課題を特定し、ChatGPT-3.5のステークホルダ識別タスクの実行能力を文書化する。
LLMは人間の利害関係者の識別には有効であるが, 外部システムや環境要因の認識には不十分であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Systems engineering (SE) is evolving with the availability of generative artificial intelligence (AI) and the demand for a systems-of-systems perspective, formalized under the purview of mission engineering (ME) in the US Department of Defense. Formulating ME problems is challenging because they are open-ended exercises that involve translation of ill-defined problems into well-defined ones that are amenable for engineering development. It remains to be seen to which extent AI could assist problem formulation objectives. To that end, this paper explores the quality and consistency of multi-purpose Large Language Models (LLM) in supporting ME problem formulation tasks, specifically focusing on stakeholder identification. We identify a relevant reference problem, a NASA space mission design challenge, and document ChatGPT-3.5's ability to perform stakeholder identification tasks. We execute multiple parallel attempts and qualitatively evaluate LLM outputs, focusing on both their quality and variability. Our findings portray a nuanced picture. We find that the LLM performs well in identifying human-focused stakeholders but poorly in recognizing external systems and environmental factors, despite explicit efforts to account for these. Additionally, LLMs struggle with preserving the desired level of abstraction and exhibit a tendency to produce solution specific outputs that are inappropriate for problem formulation. More importantly, we document great variability among parallel threads, highlighting that LLM outputs should be used with caution, ideally by adopting a stochastic view of their abilities. Overall, our findings suggest that, while ChatGPT could reduce some expert workload, its lack of consistency and domain understanding may limit its reliability for problem formulation tasks.
- Abstract(参考訳): システム工学(SE)は、生成人工知能(AI)の可用性と、アメリカ国防総省のミッションエンジニアリング(ME)のパースペクティブの下で形式化されたシステム・オブ・システムの観点からの要求によって進化している。
ME問題の定式化は、未定義の問題を、エンジニアリング開発に適する明確に定義されたものに翻訳する、オープンエンドの演習であるため、難しい。
AIが問題の定式化の目的をどの程度支援できるかは、まだわからない。
そこで本研究では,多目的大規模言語モデル(LLM)の品質と整合性について検討し,特に利害関係者の識別に焦点をあてる。
我々は、関連する参照問題、NASAの宇宙ミッション設計課題を特定し、ChatGPT-3.5のステークホルダ識別タスクの実行能力を文書化する。
複数の並列試行を実行し,LLMの出力を質的に評価し,その品質と変動性の両方に焦点をあてる。
私たちの発見はニュアンスな絵を描いている。
LLMは, 人為的利害関係者の特定には適しているが, 外部システムや環境要因の認識は不十分である。
さらに、LLMは所望の抽象化レベルを維持するのに苦労し、問題定式化に不適なソリューション固有の出力を生成する傾向を示す。
さらに重要なことは、並列スレッド間の大きなばらつきを文書化し、LLM出力は、理想的にはそれらの能力の確率的ビューを採用することにより、慎重に使用するべきであることを強調している。
全体として、ChatGPTは専門家の作業量を削減できるが、一貫性とドメイン理解の欠如により、問題定式化タスクの信頼性が制限される可能性が示唆された。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection [15.933013428603152]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な能力を示した。
不正で虐待的な言語を識別・緩和する上で,LLMの性能を評価するためのベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-09-09T21:12:03Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Visual AI and Linguistic Intelligence Through Steerability and
Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。
この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文 参考訳(メタデータ) (2023-11-18T22:01:33Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。