Fugu-MT 論文翻訳(概要): GPT in Data Science: A Practical Exploration of Model Selection

論文の概要: GPT in Data Science: A Practical Exploration of Model Selection

arxiv url: http://arxiv.org/abs/2311.11516v1
Date: Mon, 20 Nov 2023 03:42:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 20:08:25.717557
Title: GPT in Data Science: A Practical Exploration of Model Selection
Title（参考訳）: データサイエンスにおけるGPT : モデル選択の実践的探索
Authors: Nathalia Nascimento, Cristina Tavares, Paulo Alencar, Donald Cowan
Abstract要約: この研究は、AI意思決定プロセスの理解を深めることにコミットしています。我々の取り組みは、より透明で理解しやすいAIシステムの構築に向けられている。
参考スコア（独自算出の注目度）: 0.7646713951724013
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is an increasing interest in leveraging Large Language Models (LLMs) for managing structured data and enhancing data science processes. Despite the potential benefits, this integration poses significant questions regarding their reliability and decision-making methodologies. It highlights the importance of various factors in the model selection process, including the nature of the data, problem type, performance metrics, computational resources, interpretability vs accuracy, assumptions about data, and ethical considerations. Our objective is to elucidate and express the factors and assumptions guiding GPT-4's model selection recommendations. We employ a variability model to depict these factors and use toy datasets to evaluate both the model and the implementation of the identified heuristics. By contrasting these outcomes with heuristics from other platforms, our aim is to determine the effectiveness and distinctiveness of GPT-4's methodology. This research is committed to advancing our comprehension of AI decision-making processes, especially in the realm of model selection within data science. Our efforts are directed towards creating AI systems that are more transparent and comprehensible, contributing to a more responsible and efficient practice in data science.
Abstract（参考訳）: 構造化データの管理やデータサイエンスプロセスの強化にLLM(Large Language Models)を活用することへの関心が高まっている。潜在的な利点にもかかわらず、この統合は信頼性と意思決定の方法論に関して大きな疑問を呈する。データの性質、問題タイプ、パフォーマンス指標、計算資源、解釈可能性対精度、データに関する仮定、倫理的考察など、モデル選択プロセスにおけるさまざまな要素の重要性を強調します。本研究の目的は,GPT-4のモデル選択勧告を導く要因と仮定を解明し,表現することである。我々は,これらの因子を表現できる可変性モデルを採用し,玩具データセットを用いて同定されたヒューリスティックのモデルと実装の両方を評価する。これらの結果と他のプラットフォームからのヒューリスティックスを対比することにより,GPT-4の方法論の有効性と特異性を決定することを目的とする。この研究は、AI意思決定プロセス、特にデータサイエンスにおけるモデル選択の領域における理解を深めることにコミットしています。我々の取り組みは、より透明で理解可能なAIシステムの構築に向けられ、データサイエンスにおけるより責任深く効率的な実践に寄与します。

関連論文リスト

DSBC : Data Science task Benchmarking with Context engineering [0.0]
データサイエンスエージェントとの実際のユーザインタラクションを反映するベンチマークを導入する。 3つのアプローチで3つの大規模言語モデル(LLM)を評価する。
論文参考訳（メタデータ） (2025-07-31T08:32:37Z)
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文参考訳（メタデータ） (2025-06-24T17:04:23Z)
Data Heterogeneity Modeling for Trustworthy Machine Learning [25.732841312561586]
データの不均一性は、機械学習(ML)システムの性能を決定する上で重要な役割を果たす。伝統的なアルゴリズムは、しばしばデータセットの固有の多様性を見落としている。データ多様性の深い理解によって、モデルの堅牢性、公正性、信頼性が向上することを示す。
論文参考訳（メタデータ） (2025-06-01T11:36:56Z)
Multimodal Generative AI for Story Point Estimation in Software Development [0.9831489366502301]
この研究は、アジャイルソフトウェア開発におけるストーリーポイント推定を強化するために、マルチモーダル・ジェネレーティブ・AI(Multimodal Generative AI)の適用について検討する。 BERT, CNN, XGBoostといった高度なモデルを用いてテキスト, 画像, 分類データを統合することにより, 従来の単一モーダル推定手法の限界を超えている。
論文参考訳（メタデータ） (2025-05-22T06:40:41Z)
Mitigating Attrition: Data-Driven Approach Using Machine Learning and Data Engineering [0.0]
本稿では、機械学習とデータエンジニアリング技術を用いて、従業員の誘惑を緩和する新しいデータ駆動アプローチを提案する。提案フレームワークは, 多様な人的資源システムからのデータを統合し, 高度な特徴工学を活用して, 誘惑に影響を及ぼす要因を包括的に把握する。
論文参考訳（メタデータ） (2025-02-25T05:29:45Z)
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
Addressing Heterogeneity in Federated Learning: Challenges and Solutions for a Shared Production Environment [1.2499537119440245]
フェデレートラーニング(FL)は、分散データソース間で機械学習モデルをトレーニングするための有望なアプローチとして登場した。本稿では、FLにおけるデータ不均一性について、製造の文脈で概観する。本研究は,これらの異種性がモデルトレーニングに与える影響について考察し,その悪影響を緩和するための現在の手法を概観する。
論文参考訳（メタデータ） (2024-08-18T17:49:44Z)
A review of feature selection strategies utilizing graph data structures and knowledge graphs [1.9570926122713395]
知識グラフ(KG)の特徴選択は、生物医学研究、自然言語処理(NLP)、パーソナライズされたレコメンデーションシステムなど、さまざまな領域でますます活用されている。本稿では,機械学習(ML)モデルの有効性向上,仮説生成,解釈可能性向上におけるKGsの機能選択の方法論を考察する。論文は、スケーラブルでダイナミックな特徴選択アルゴリズムの開発や、KG駆動モデルにおける透明性と信頼を促進するための説明可能なAI原則の統合など、今後の方向性をグラフ化することで締めくくっている。
論文参考訳（メタデータ） (2024-06-21T04:50:02Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Extending Variability-Aware Model Selection with Bias Detection in Machine Learning Projects [0.7646713951724013]
本稿では,機械学習プロジェクトにおけるバイアス検出による適応変数認識モデル選択手法の拡張について述べる。提案手法は, モデル選択, 特にバイアスに関連する要因, およびそれらの相互作用に影響を及ぼす因子を明示することによって, 技術の現状を推し進めることを目的としている。
論文参考訳（メタデータ） (2023-11-23T22:08:29Z)
Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文参考訳（メタデータ） (2023-11-03T06:34:37Z)
Striving for data-model efficiency: Identifying data externalities on group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文参考訳（メタデータ） (2022-11-11T16:48:27Z)
Making Machine Learning Datasets and Models FAIR for HPC: A Methodology and Case Study [0.0]
FAIR Guiding Principlesは、デジタルコンテンツの発見可能性、アクセシビリティ、相互運用性、再利用性を改善することを目的としている。これらの原則は、ハイパフォーマンスコンピューティングのための機械学習ベースのプログラム分析と最適化の分野において、まだ広く採用されていない。我々は、既存のFAIRness評価と改善技術を調査した後、HPCデータセットと機械学習モデルFAIRを作成する手法を設計する。
論文参考訳（メタデータ） (2022-11-03T18:45:46Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Principles and Practice of Explainable Machine Learning [12.47276164048813]
本稿では、特に機械学習(ML)とパターン認識モデルに関するデータ駆動手法に焦点を当てる。メソッドの頻度と複雑さが増すにつれて、少なくともビジネスの利害関係者はモデルの欠点に懸念を抱いている。我々は、業界実践者が説明可能な機械学習の分野をよりよく理解するための調査を実施した。
論文参考訳（メタデータ） (2020-09-18T14:50:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。