論文の概要: Measurement as Bricolage: Examining How Data Scientists Construct Target Variables for Predictive Modeling Tasks
- arxiv url: http://arxiv.org/abs/2507.02819v1
- Date: Thu, 03 Jul 2025 17:33:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.772563
- Title: Measurement as Bricolage: Examining How Data Scientists Construct Target Variables for Predictive Modeling Tasks
- Title(参考訳): ブリコラージュとしての計測 - データサイエンティストが予測モデリングタスクのためにターゲット変数を構築する方法を理解する
- Authors: Luke Guerdan, Devansh Saxena, Stevie Chancellor, Zhiwei Steven Wu, Kenneth Holstein,
- Abstract要約: 我々は、モデリングタスクのターゲット変数をどのように構築するかを理解するために、教育と医療のデータサイエンティストにインタビューする。
以上の結果から,データ科学者は,高レベルな測定目標と低レベルな実践的制約の交渉を含むブリコラージュプロセスを通じて,対象変数を構築することが示唆された。
- 参考スコア(独自算出の注目度): 37.243572032735926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scientists often formulate predictive modeling tasks involving fuzzy, hard-to-define concepts, such as the "authenticity" of student writing or the "healthcare need" of a patient. Yet the process by which data scientists translate fuzzy concepts into a concrete, proxy target variable remains poorly understood. We interview fifteen data scientists in education (N=8) and healthcare (N=7) to understand how they construct target variables for predictive modeling tasks. Our findings suggest that data scientists construct target variables through a bricolage process, involving iterative negotiation between high-level measurement objectives and low-level practical constraints. Data scientists attempt to satisfy five major criteria for a target variable through bricolage: validity, simplicity, predictability, portability, and resource requirements. To achieve this, data scientists adaptively use problem (re)formulation strategies, such as swapping out one candidate target variable for another when the first fails to meet certain criteria (e.g., predictability), or composing multiple outcomes into a single target variable to capture a more holistic set of modeling objectives. Based on our findings, we present opportunities for future HCI, CSCW, and ML research to better support the art and science of target variable construction.
- Abstract(参考訳): データサイエンティストは、学生の文章の「美」や患者の「健康ニーズ」など、ファジィで定義が難しい概念を含む予測モデリングタスクを定式化することが多い。
しかし、データサイエンティストがファジィの概念を具体的なプロキシターゲット変数に変換するプロセスは、いまだに理解されていない。
本研究では,教育における15人のデータサイエンティスト (N=8) と医療従事者 (N=7) にインタビューを行い,予測モデリングタスクにおける対象変数の構築方法について考察した。
以上の結果から,データ科学者は,高レベルな測定目標と低レベルな実践的制約の反復的交渉を伴って,ブリコラージュプロセスを通じて目標変数を構築することが示唆された。
データサイエンティストは、妥当性、単純性、予測可能性、可搬性、リソース要件という、対象変数の5つの主要な基準を満たすことを試みている。
これを実現するために、データサイエンティストは、ある候補のターゲット変数が特定の基準(例えば、予測可能性)を満たさない場合に、別の候補のターゲット変数を交換したり、複数の結果を単一のターゲット変数に構成したり、より包括的なモデリング目的を捉えるといった問題(再)戦略を適応的に使用する。
本研究は, 将来のHCI, CSCW, ML研究の機会を提供し, 対象変数構築の芸術と科学をより良く支援する。
関連論文リスト
- DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Enhancing Activity Prediction Models in Drug Discovery with the Ability
to Understand Human Language [5.117101148161245]
我々は,新しい予測タスクを推論時に適応できる,新しいタイプの行動予測モデルを提案する。
我々のCLAMP法は, 医薬品発見における数ショット学習ベンチマークとゼロショット問題において, 予測性能の向上を図っている。
論文 参考訳(メタデータ) (2023-03-06T18:49:09Z) - TIDo: Source-free Task Incremental Learning in Non-stationary
Environments [0.0]
モデルベースのエージェントを更新して新しいターゲットタスクを学習するには、過去のトレーニングデータを格納する必要があります。
ラベル付きターゲットデータセットの制限を克服するタスクインクリメンタル学習手法はほとんどない。
本研究では,非定常的および目標的タスクに適応可能なワンショットタスクインクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T02:19:45Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。