論文の概要: Measurement as Bricolage: Examining How Data Scientists Construct Target Variables for Predictive Modeling Tasks
- arxiv url: http://arxiv.org/abs/2507.02819v3
- Date: Tue, 19 Aug 2025 13:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.559283
- Title: Measurement as Bricolage: Examining How Data Scientists Construct Target Variables for Predictive Modeling Tasks
- Title(参考訳): ブリコラージュとしての計測 - データサイエンティストが予測モデリングタスクのためにターゲット変数を構築する方法を理解する
- Authors: Luke Guerdan, Devansh Saxena, Stevie Chancellor, Zhiwei Steven Wu, Kenneth Holstein,
- Abstract要約: データサイエンティストは、ファジィで定義が難しい概念を含む予測モデリングタスクを定式化することが多い。
我々は、ターゲット変数の構築方法を理解するために、教育と医療の15人のデータサイエンティストにインタビューを行った。
以上の結果から,データサイエンティストはブリコラージュプロセスを通じて対象変数を構築することが示唆された。
- 参考スコア(独自算出の注目度): 37.243572032735926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scientists often formulate predictive modeling tasks involving fuzzy, hard-to-define concepts, such as the "authenticity" of student writing or the "healthcare need" of a patient. Yet the process by which data scientists translate fuzzy concepts into a concrete, proxy target variable remains poorly understood. We interview fifteen data scientists in education (N=8) and healthcare (N=7) to understand how they construct target variables for predictive modeling tasks. Our findings suggest that data scientists construct target variables through a bricolage process, in which they use creative and pragmatic approaches to make do with the limited data at hand. Data scientists attempt to satisfy five major criteria for a target variable through bricolage: validity, simplicity, predictability, portability, and resource requirements. To achieve this, data scientists adaptively apply problem (re)formulation strategies, such as swapping out one candidate target variable for another when the first fails to meet certain criteria (e.g., predictability), or composing multiple outcomes into a single target variable to capture a more holistic set of modeling objectives. Based on our findings, we present opportunities for future HCI, CSCW, and ML research to better support the art and science of target variable construction.
- Abstract(参考訳): データサイエンティストは、学生の文章の「美」や患者の「健康ニーズ」など、ファジィで定義が難しい概念を含む予測モデリングタスクを定式化することが多い。
しかし、データサイエンティストがファジィの概念を具体的なプロキシターゲット変数に変換するプロセスは、いまだに理解されていない。
本研究では,教育における15人のデータサイエンティスト (N=8) と医療従事者 (N=7) にインタビューを行い,予測モデリングタスクにおける対象変数の構築方法について考察した。
以上の結果から,データ科学者は,限られたデータを扱うために,創造的かつ実践的なアプローチを用いて,対象変数を構築することが示唆された。
データサイエンティストは、妥当性、単純性、予測可能性、可搬性、リソース要件という、対象変数の5つの主要な基準を満たすことを試みている。
これを実現するために、データサイエンティストは、ある条件(例えば、予測可能性)を満たさないときに、ある候補のターゲット変数を別の候補に切り換えたり、複数の結果を単一のターゲット変数に合成して、より包括的なモデリング目的を捉えるといった問題(再)戦略を適応的に適用する。
本研究は, 将来のHCI, CSCW, ML研究の機会を提供し, 対象変数構築の芸術と科学をより良く支援する。
関連論文リスト
- DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - MoMA: Momentum Contrastive Learning with Multi-head Attention-based Knowledge Distillation for Histopathology Image Analysis [4.5677296928097055]
計算病理学における特定のタスクに関して、品質データの欠如は一般的な問題である。
そこで本研究では,既存のモデルを用いて新たなターゲットモデルを学習する知識蒸留手法を提案する。
本研究では,教師モデルから学習対象モデルを学習するために,学習者・教師の枠組みを用いる。
論文 参考訳(メタデータ) (2023-08-31T08:54:59Z) - Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning [117.48444197402858]
データフリーメタトレーニングにおけるePisode cUrriculum inversion(ECI)と、内部ループ後のinvErsion calibRation(ICFIL)を提案する。
ECIは、メタモデルのリアルタイムフィードバックに応じて、擬似エピソードの難易度を適応的に増加させる。
本稿では,ECIを用いたメタトレーニングの最適化過程を,エンド・ツー・エンド方式で近似形式として定式化する。
論文 参考訳(メタデータ) (2023-03-20T15:10:41Z) - Enhancing Activity Prediction Models in Drug Discovery with the Ability
to Understand Human Language [5.117101148161245]
我々は,新しい予測タスクを推論時に適応できる,新しいタイプの行動予測モデルを提案する。
我々のCLAMP法は, 医薬品発見における数ショット学習ベンチマークとゼロショット問題において, 予測性能の向上を図っている。
論文 参考訳(メタデータ) (2023-03-06T18:49:09Z) - TIDo: Source-free Task Incremental Learning in Non-stationary
Environments [0.0]
モデルベースのエージェントを更新して新しいターゲットタスクを学習するには、過去のトレーニングデータを格納する必要があります。
ラベル付きターゲットデータセットの制限を克服するタスクインクリメンタル学習手法はほとんどない。
本研究では,非定常的および目標的タスクに適応可能なワンショットタスクインクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T02:19:45Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Adversarial Counterfactual Environment Model Learning [14.47625059952581]
本稿では,特定のターゲットポリシーによってクエリされた対物データセットに一般化するためのモデル学習において,対物的リスク最小化(CQRM)を導入する。
政策学習において,対象の方針は多様かつ未知であるため,敵の方針に照らされた対実データに基づいて学習する敵のCQRM目標を提案する。
合成タスクにGALILEOを適用し,実世界の応用について検討する。
論文 参考訳(メタデータ) (2022-06-10T06:09:06Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。