論文の概要: GPT in Data Science: A Practical Exploration of Model Selection
- arxiv url: http://arxiv.org/abs/2311.11516v1
- Date: Mon, 20 Nov 2023 03:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:08:25.717557
- Title: GPT in Data Science: A Practical Exploration of Model Selection
- Title(参考訳): データサイエンスにおけるGPT : モデル選択の実践的探索
- Authors: Nathalia Nascimento, Cristina Tavares, Paulo Alencar, Donald Cowan
- Abstract要約: この研究は、AI意思決定プロセスの理解を深めることにコミットしています。
我々の取り組みは、より透明で理解しやすいAIシステムの構築に向けられている。
- 参考スコア(独自算出の注目度): 0.7646713951724013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing interest in leveraging Large Language Models (LLMs)
for managing structured data and enhancing data science processes. Despite the
potential benefits, this integration poses significant questions regarding
their reliability and decision-making methodologies. It highlights the
importance of various factors in the model selection process, including the
nature of the data, problem type, performance metrics, computational resources,
interpretability vs accuracy, assumptions about data, and ethical
considerations. Our objective is to elucidate and express the factors and
assumptions guiding GPT-4's model selection recommendations. We employ a
variability model to depict these factors and use toy datasets to evaluate both
the model and the implementation of the identified heuristics. By contrasting
these outcomes with heuristics from other platforms, our aim is to determine
the effectiveness and distinctiveness of GPT-4's methodology. This research is
committed to advancing our comprehension of AI decision-making processes,
especially in the realm of model selection within data science. Our efforts are
directed towards creating AI systems that are more transparent and
comprehensible, contributing to a more responsible and efficient practice in
data science.
- Abstract(参考訳): 構造化データの管理やデータサイエンスプロセスの強化にLLM(Large Language Models)を活用することへの関心が高まっている。
潜在的な利点にもかかわらず、この統合は信頼性と意思決定の方法論に関して大きな疑問を呈する。
データの性質、問題タイプ、パフォーマンス指標、計算資源、解釈可能性対精度、データに関する仮定、倫理的考察など、モデル選択プロセスにおけるさまざまな要素の重要性を強調します。
本研究の目的は,GPT-4のモデル選択勧告を導く要因と仮定を解明し,表現することである。
我々は,これらの因子を表現できる可変性モデルを採用し,玩具データセットを用いて同定されたヒューリスティックのモデルと実装の両方を評価する。
これらの結果と他のプラットフォームからのヒューリスティックスを対比することにより,GPT-4の方法論の有効性と特異性を決定することを目的とする。
この研究は、AI意思決定プロセス、特にデータサイエンスにおけるモデル選択の領域における理解を深めることにコミットしています。
我々の取り組みは、より透明で理解可能なAIシステムの構築に向けられ、データサイエンスにおけるより責任深く効率的な実践に寄与します。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Towards Explainable Artificial Intelligence (XAI): A Data Mining
Perspective [35.620874971064765]
この研究は、データ収集、処理、分析が説明可能なAI(XAI)にどのように貢献するかを「データ中心」の視点で検証する。
我々は,既存の研究を,深層モデルの解釈,トレーニングデータの影響,ドメイン知識の洞察の3つのカテゴリに分類する。
具体的には、XAIの方法論を、モダリティをまたいだデータのトレーニングおよびテストに関するデータマイニング操作に蒸留する。
論文 参考訳(メタデータ) (2024-01-09T06:27:09Z) - Comparative Analysis of Transformers for Modeling Tabular Data: A
Casestudy using Industry Scale Dataset [1.0758036046280266]
この研究は、American Expressの合成データセットとデフォルト予測Kaggleデータセット(2022)の両方を用いて、様々なトランスフォーマーベースのモデルを広範囲に検証する。
本稿では、最適データ前処理に関する重要な知見を提示し、事前学習と直接教師付き学習法を比較し、分類的特徴と数値的特徴を管理するための戦略について議論し、計算資源と性能のトレードオフを強調する。
論文 参考訳(メタデータ) (2023-11-24T08:16:39Z) - Extending Variability-Aware Model Selection with Bias Detection in
Machine Learning Projects [0.7646713951724013]
本稿では,機械学習プロジェクトにおけるバイアス検出による適応変数認識モデル選択手法の拡張について述べる。
提案手法は, モデル選択, 特にバイアスに関連する要因, およびそれらの相互作用に影響を及ぼす因子を明示することによって, 技術の現状を推し進めることを目的としている。
論文 参考訳(メタデータ) (2023-11-23T22:08:29Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Evaluating and Incentivizing Diverse Data Contributions in Collaborative
Learning [89.21177894013225]
フェデレートされた学習モデルがうまく機能するためには、多様で代表的なデータセットを持つことが不可欠である。
データの多様性を定量化するために用いられる統計的基準と、使用するフェデレート学習アルゴリズムの選択が、結果の平衡に有意な影響を及ぼすことを示す。
我々はこれを活用して、データ収集者がグローバルな人口を代表するデータに貢献することを奨励する、シンプルな最適なフェデレーション学習機構を設計する。
論文 参考訳(メタデータ) (2023-06-08T23:38:25Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Making Machine Learning Datasets and Models FAIR for HPC: A Methodology
and Case Study [0.0]
FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。
これらの原則は、ハイパフォーマンスコンピューティングのための機械学習ベースのプログラム分析と最適化の分野において、まだ広く採用されていない。
我々は、既存のFAIRness評価と改善技術を調査した後、HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。
論文 参考訳(メタデータ) (2022-11-03T18:45:46Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。
メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。
我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文 参考訳(メタデータ) (2020-09-18T14:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。