論文の概要: Data Combination for Problem-solving: A Case of an Open Data Exchange
Platform
- arxiv url: http://arxiv.org/abs/2012.11746v1
- Date: Mon, 21 Dec 2020 23:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 00:10:02.701964
- Title: Data Combination for Problem-solving: A Case of an Open Data Exchange
Platform
- Title(参考訳): 問題解決のためのデータの組み合わせ:オープンデータ交換プラットフォームの事例
- Authors: Teruaki Hayashi and Hiroki Sakaji and Hiroyasu Matsushima and Yoshiaki
Fukami and Takumi Shimizu and Yukio Ohsawa
- Abstract要約: ビッグデータと学際データの組み合わせでは、多くの変数を持つ大規模データを使用することが期待されている。
その結果,少数の変数を持つデータセットであっても,問題解決のためのソリューションの提案に頻繁に使用されることがわかった。
本研究の結果は、複数のデータセットや変数を含む問題解決のためのデータ組み合わせの背後にあるメカニズムに光を当てた。
- 参考スコア(独自算出の注目度): 2.9038508461575976
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, rather than enclosing data within a single organization,
exchanging and combining data from different domains has become an emerging
practice. Many studies have discussed the economic and utility value of data
and data exchange, but the characteristics of data that contribute to problem
solving through data combination have not been fully understood. In big data
and interdisciplinary data combinations, large-scale data with many variables
are expected to be used, and value is expected to be created by combining data
as much as possible. In this study, we conduct three experiments to investigate
the characteristics of data, focusing on the relationships between data
combinations and variables in each dataset, using empirical data shared by the
local government. The results indicate that even datasets that have a few
variables are frequently used to propose solutions for problem solving.
Moreover, we found that even if the datasets in the solution do not have common
variables, there are some well-established solutions to the problems. The
findings of this study shed light on mechanisms behind data combination for
problem-solving involving multiple datasets and variables.
- Abstract(参考訳): 近年では、ひとつの組織内にデータを囲むのではなく、異なるドメインからのデータ交換と結合が新たなプラクティスになっている。
データとデータ交換の経済的・実用的価値を論じる研究は多いが、データ組み合わせによる問題解決に寄与するデータの特徴は十分に理解されていない。
ビッグデータと学際データの組み合わせでは、多くの変数を持つ大規模なデータを使用することが期待され、データを可能な限り組み合わせることで価値が生成される。
本研究では,各データセットにおけるデータの組み合わせと変数の関係に着目し,自治体が共有する実証データを用いて,データの特徴を調査する3つの実験を行った。
その結果,少数の変数を持つデータセットであっても,問題解決のためのソリューションの提案に頻繁に使用されることがわかった。
さらに、ソリューション内のデータセットに共通変数がなくても、問題に対する確立された解決策が存在することも分かりました。
本研究の結果は、複数のデータセットや変数を含む問題解決のためのデータ組み合わせの背後にあるメカニズムに光を当てた。
関連論文リスト
- UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - The Dataset Multiplicity Problem: How Unreliable Data Impacts
Predictions [12.00314910031517]
トレーニングデータセットにおける不正確性、不確実性、社会的バイアスがテスト時間予測にどのように影響するかを研究するための、データセット乗法を導入する。
本稿では,このフレームワークを用いて,データセットの事実性における様々な不確実性ソースをカプセル化する方法について論じる。
実世界のデータセットは、合理的な仮定の下では、データセットの多重性によって予測される多くのテストサンプルを含んでいることを実証分析により示している。
論文 参考訳(メタデータ) (2023-04-20T21:31:15Z) - Neural Network Architecture for Database Augmentation Using Shared
Features [0.0]
医学のような領域では、大きな単一ソースデータセットや同一の機能を持つマルチソースデータセットを作成するのが難しくなる。
本稿では、これらのデータセット間で共通する機能を用いて、データ拡張を提供するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-02T19:17:06Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using
Macro Data Sources [21.32471030724983]
人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。
本研究では,高分解能データの抽出方法として合成データ生成について検討する。
論文 参考訳(メタデータ) (2022-12-08T01:22:12Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。