論文の概要: A Datalake for Data-driven Social Science Research
- arxiv url: http://arxiv.org/abs/2512.02463v1
- Date: Tue, 02 Dec 2025 06:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.751241
- Title: A Datalake for Data-driven Social Science Research
- Title(参考訳): データ駆動型社会科学研究のためのデータレイク
- Authors: Puneet Arya, Ojas Sahasrabudhe, Adwaiya Srivastav, Partha Pratim Das, Maya Ramanath,
- Abstract要約: 本稿では,学際的な社会科学研究の必要性に合わせたDatalakeインフラストラクチャを提案する。
本システムは,多様なデータ型の取り込みと統合,自動前処理とバージョン追跡,ロールベースのアクセス制御,可視化と解析のための組込みツールをサポートする。
このようなインフラは、特にNGO、学生、草の根組織といった先進的なデータサイエンスの実践へのアクセスを民主化できます。
- 参考スコア(独自算出の注目度): 2.285735909183272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social science research increasingly demands data-driven insights, yet researchers often face barriers such as lack of technical expertise, inconsistent data formats, and limited access to reliable datasets.Social science research increasingly demands data-driven insights, yet researchers often face barriers such as lack of technical expertise, inconsistent data formats, and limited access to reliable datasets. In this paper, we present a Datalake infrastructure tailored to the needs of interdisciplinary social science research. Our system supports ingestion and integration of diverse data types, automatic provenance and version tracking, role-based access control, and built-in tools for visualization and analysis. We demonstrate the utility of our Datalake using real-world use cases spanning governance, health, and education. A detailed walkthrough of one such use case -- analyzing the relationship between income, education, and infant mortality -- shows how our platform streamlines the research process while maintaining transparency and reproducibility. We argue that such infrastructure can democratize access to advanced data science practices, especially for NGOs, students, and grassroots organizations. The Datalake continues to evolve with plans to support ML pipelines, mobile access, and citizen data feedback mechanisms.
- Abstract(参考訳): 社会科学研究は、データ駆動の洞察をますます要求するが、研究者はしばしば、技術的専門知識の欠如、一貫性のないデータフォーマット、信頼性のあるデータセットへのアクセス制限といった障壁に直面している。社会科学研究は、データ駆動の洞察をますます要求しているが、研究者はしばしば、技術的専門知識の欠如、一貫性のないデータフォーマット、信頼性のあるデータセットへのアクセス制限といった障壁に直面している。
本稿では,学際的な社会科学研究の必要性に合わせて,Datalakeインフラストラクチャを提案する。
本システムは,多様なデータ型の取り込みと統合,自動前処理とバージョン追跡,ロールベースのアクセス制御,可視化と解析のための組込みツールをサポートする。
私たちは、ガバナンス、健康、教育にまたがる現実世界のユースケースを使用して、Datalakeの有用性を実証します。
収入、教育、幼児死亡率の関係を分析した結果、我々のプラットフォームが透明性と再現性を維持しながら研究プロセスをいかに合理化しているかがわかりました。
このようなインフラは、特にNGO、学生、草の根組織といった先進的なデータサイエンスの実践へのアクセスを民主化できます。
Datalakeは、MLパイプライン、モバイルアクセス、市民データフィードバックメカニズムをサポートする計画で進化を続けている。
関連論文リスト
- A GenAI System for Improved FAIR Independent Biological Database Integration [0.0]
実験的な自然言語に基づくクエリ処理システムを導入し,生物学データベースの発見,アクセス,クエリを可能にする。
FAIRBridgeは、クエリインテントを解釈し、関連するデータベースにマップし、実行可能なクエリを生成するAIの機能を活用する。
このシステムには、低品質のクエリ処理を緩和し、提供された情報の忠実度と応答性を確保するための堅牢なツールも含まれている。
論文 参考訳(メタデータ) (2025-06-22T08:04:24Z) - Data-Driven Breakthroughs and Future Directions in AI Infrastructure: A Comprehensive Review [0.0]
本稿では,過去15年間の人工知能(AI)の大きなブレークスルーを包括的に合成する。
計算リソース、データアクセス、アルゴリズム革新の収束をトレースすることで、AIの進化における重要なインフレクションポイントを特定する。
論文 参考訳(メタデータ) (2025-05-22T15:12:48Z) - Network Intrusion Datasets: A Survey, Limitations, and Recommendations [0.0]
データ駆動型サイバー脅威検出は、現代のサイバーセキュリティにおいて重要な防御技術となっている。
データの重要性にもかかわらず、その不足はNIDS研究の大きな障害として長年認識されてきた。
論文 参考訳(メタデータ) (2025-02-10T17:14:37Z) - DISCOVER: A Data-driven Interactive System for Comprehensive Observation, Visualization, and ExploRation of Human Behaviour [6.716560115378451]
我々は,人間行動分析のための計算駆動型データ探索を効率化するために,モジュール型でフレキシブルでユーザフレンドリなソフトウェアフレームワークを導入する。
我々の主な目的は、高度な計算方法論へのアクセスを民主化することであり、これにより研究者は、広範囲の技術的熟練を必要とせずに、詳細な行動分析を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T11:28:52Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - INODE: Building an End-to-End Data Exploration System in Practice
[Extended Vision] [30.411996388471817]
INODEはエンドツーエンドのデータ探索システムです。
私達は癌のバイオマーカーのReearch、研究および革新の方針の作成および天体物理学の分野の3つの重要な使用例でそれを実証します。
論文 参考訳(メタデータ) (2021-04-09T05:04:04Z) - Explainable Patterns: Going from Findings to Insights to Support Data
Analytics Democratization [60.18814584837969]
我々は,データストーリテリングの探索と作成において,レイユーザをサポートする新しいフレームワークであるExplainable Patterns (ExPatt)を提示する。
ExPattは、外部(テキスト)の情報ソースを使用して、観察または選択された発見の実用的な説明を自動的に生成します。
論文 参考訳(メタデータ) (2021-01-19T16:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。