論文の概要: GPT in Data Science: A Practical Exploration of Model Selection
- arxiv url: http://arxiv.org/abs/2311.11516v1
- Date: Mon, 20 Nov 2023 03:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:08:25.717557
- Title: GPT in Data Science: A Practical Exploration of Model Selection
- Title(参考訳): データサイエンスにおけるGPT : モデル選択の実践的探索
- Authors: Nathalia Nascimento, Cristina Tavares, Paulo Alencar, Donald Cowan
- Abstract要約: この研究は、AI意思決定プロセスの理解を深めることにコミットしています。
我々の取り組みは、より透明で理解しやすいAIシステムの構築に向けられている。
- 参考スコア(独自算出の注目度): 0.7646713951724013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing interest in leveraging Large Language Models (LLMs)
for managing structured data and enhancing data science processes. Despite the
potential benefits, this integration poses significant questions regarding
their reliability and decision-making methodologies. It highlights the
importance of various factors in the model selection process, including the
nature of the data, problem type, performance metrics, computational resources,
interpretability vs accuracy, assumptions about data, and ethical
considerations. Our objective is to elucidate and express the factors and
assumptions guiding GPT-4's model selection recommendations. We employ a
variability model to depict these factors and use toy datasets to evaluate both
the model and the implementation of the identified heuristics. By contrasting
these outcomes with heuristics from other platforms, our aim is to determine
the effectiveness and distinctiveness of GPT-4's methodology. This research is
committed to advancing our comprehension of AI decision-making processes,
especially in the realm of model selection within data science. Our efforts are
directed towards creating AI systems that are more transparent and
comprehensible, contributing to a more responsible and efficient practice in
data science.
- Abstract(参考訳): 構造化データの管理やデータサイエンスプロセスの強化にLLM(Large Language Models)を活用することへの関心が高まっている。
潜在的な利点にもかかわらず、この統合は信頼性と意思決定の方法論に関して大きな疑問を呈する。
データの性質、問題タイプ、パフォーマンス指標、計算資源、解釈可能性対精度、データに関する仮定、倫理的考察など、モデル選択プロセスにおけるさまざまな要素の重要性を強調します。
本研究の目的は,GPT-4のモデル選択勧告を導く要因と仮定を解明し,表現することである。
我々は,これらの因子を表現できる可変性モデルを採用し,玩具データセットを用いて同定されたヒューリスティックのモデルと実装の両方を評価する。
これらの結果と他のプラットフォームからのヒューリスティックスを対比することにより,GPT-4の方法論の有効性と特異性を決定することを目的とする。
この研究は、AI意思決定プロセス、特にデータサイエンスにおけるモデル選択の領域における理解を深めることにコミットしています。
我々の取り組みは、より透明で理解可能なAIシステムの構築に向けられ、データサイエンスにおけるより責任深く効率的な実践に寄与します。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Addressing Heterogeneity in Federated Learning: Challenges and Solutions for a Shared Production Environment [1.2499537119440245]
フェデレートラーニング(FL)は、分散データソース間で機械学習モデルをトレーニングするための有望なアプローチとして登場した。
本稿では、FLにおけるデータ不均一性について、製造の文脈で概観する。
本研究は,これらの異種性がモデルトレーニングに与える影響について考察し,その悪影響を緩和するための現在の手法を概観する。
論文 参考訳(メタデータ) (2024-08-18T17:49:44Z) - A review of feature selection strategies utilizing graph data structures and knowledge graphs [1.9570926122713395]
知識グラフ(KG)の特徴選択は、生物医学研究、自然言語処理(NLP)、パーソナライズされたレコメンデーションシステムなど、さまざまな領域でますます活用されている。
本稿では,機械学習(ML)モデルの有効性向上,仮説生成,解釈可能性向上におけるKGsの機能選択の方法論を考察する。
論文は、スケーラブルでダイナミックな特徴選択アルゴリズムの開発や、KG駆動モデルにおける透明性と信頼を促進するための説明可能なAI原則の統合など、今後の方向性をグラフ化することで締めくくっている。
論文 参考訳(メタデータ) (2024-06-21T04:50:02Z) - Extending Variability-Aware Model Selection with Bias Detection in
Machine Learning Projects [0.7646713951724013]
本稿では,機械学習プロジェクトにおけるバイアス検出による適応変数認識モデル選択手法の拡張について述べる。
提案手法は, モデル選択, 特にバイアスに関連する要因, およびそれらの相互作用に影響を及ぼす因子を明示することによって, 技術の現状を推し進めることを目的としている。
論文 参考訳(メタデータ) (2023-11-23T22:08:29Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Making Machine Learning Datasets and Models FAIR for HPC: A Methodology
and Case Study [0.0]
FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。
これらの原則は、ハイパフォーマンスコンピューティングのための機械学習ベースのプログラム分析と最適化の分野において、まだ広く採用されていない。
我々は、既存のFAIRness評価と改善技術を調査した後、HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。
論文 参考訳(メタデータ) (2022-11-03T18:45:46Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。
メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。
我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文 参考訳(メタデータ) (2020-09-18T14:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。