論文の概要: SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration
- arxiv url: http://arxiv.org/abs/2603.07502v2
- Date: Wed, 11 Mar 2026 02:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.060742
- Title: SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration
- Title(参考訳): SeDa: データセット発見とマルチエンティティ拡張セマンティック探索のための統合システム
- Authors: Kan Ling, Zhen Qin, Yichi Zhu, Hengrun Zhang, Huiqun Yu, Guisheng Fan,
- Abstract要約: SeDaは、データセット発見、セマンティックアノテーション、マルチエンティティ拡張ナビゲーションのための統合フレームワークである。
200以上のプラットフォームから760万以上のデータセットを統合しており、政府、学術、産業ドメインにまたがっている。
- 参考スコア(独自算出の注目度): 10.551704283617228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous expansion of open data platforms and research repositories has led to a fragmented dataset ecosystem, posing significant challenges for cross-source data discovery and interpretation. To address these challenges, we introduce SeDa--a unified framework for dataset discovery, semantic annotation, and multi-entity augmented navigation. SeDa integrates more than 7.6 million datasets from over 200 platforms, spanning governmental, academic, and industrial domains. The framework first performs semantic extraction and standardization to harmonize heterogeneous metadata representations. On this basis, a topic-tagging mechanism constructs an extensible tag graph that supports thematic retrieval and cross-domain association, while a provenance assurance module embedded within the annotation process continuously validates dataset sources and monitors link availability to ensure reliability and traceability. Furthermore, SeDa employs a multi-entity augmented navigation strategy that organizes datasets within a knowledge space of sites, institutions, and enterprises, enabling contextual and provenance-aware exploration beyond traditional search paradigms. Comparative experiments with popular dataset search platforms, such as ChatPD and Google Dataset Search, demonstrate that SeDa achieves superior coverage, timeliness, and traceability. Taken together, SeDa establishes a foundation for trustworthy, semantically enriched, and globally scalable dataset exploration.
- Abstract(参考訳): オープンデータプラットフォームと研究レポジトリの継続的な拡張は、断片化されたデータセットエコシステムをもたらし、クロスソースなデータ発見と解釈に重大な課題を提起している。
これらの課題に対処するために,データセット発見,セマンティックアノテーション,多義性拡張ナビゲーションのための統合フレームワークであるSeDaを導入する。
SeDaは200以上のプラットフォームから760万以上のデータセットを統合しており、政府、学術、産業ドメインにまたがっている。
このフレームワークは、まず意味抽出と標準化を行い、異種メタデータ表現を調和させる。
これに基づいて、トピックタグ機構は、テーマ検索とクロスドメインアソシエーションをサポートする拡張可能なタググラフを構築し、アノテーションプロセスに埋め込まれた証明保証モジュールは、データセットソースを継続的に検証し、リンク可用性を監視し、信頼性とトレーサビリティを確保する。
さらに、SeDaは、サイト、機関、企業の知識空間内でデータセットを整理するマルチエンタリティ拡張ナビゲーション戦略を採用しており、従来の検索パラダイムを越えてコンテキストと前向きな探索を可能にする。
ChatPDやGoogle Dataset Searchといった一般的なデータセット検索プラットフォームとの比較実験は、SeDaが優れたカバレッジ、タイムライン、トレーサビリティを実現していることを示している。
合わせて、SeDaは信頼性が高く、セマンティックに豊かで、グローバルにスケーラブルなデータセット探索のための基盤を確立する。
関連論文リスト
- Multi-Disciplinary Dataset Discovery from Citation-Verified Literature Contexts [0.0]
本稿では,学術論文の引用文脈からデータセットを抽出する文献駆動フレームワークを提案する。
提案手法は,大規模引用コンテキスト抽出,スキーマ誘導型データセット認識,証明保存エンティティ解決を併用する。
コード、評価データセット、結果はGitHubで公開しています。
論文 参考訳(メタデータ) (2026-01-08T16:46:06Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - SmartPNT-MSF: A Multi-Sensor Fusion Dataset for Positioning and Navigation Research [5.758433879018026]
このデータセットは、グローバルナビゲーション衛星システム(GNSS)、慣性計測ユニット(IMU)、光学カメラ、LiDARなど、複数のセンサーからのデータを統合する。
データ収集と処理のための標準化されたフレームワークは、一貫性とスケーラビリティを確保し、大規模な分析を可能にする。
都市部、キャンパス、トンネル、郊外環境など、様々な現実のシナリオをカバーしている。
論文 参考訳(メタデータ) (2025-07-25T09:06:11Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SGED: A Benchmark dataset for Performance Evaluation of Spiking Gesture
Emotion Recognition [12.396844568607522]
我々は、既存のデータセットの分析に基づいて、新しい同質なマルチモーダルジェスチャー感情認識データセットをラベル付けする。
本稿では,このデータセットに基づく擬似二重フローネットワークを提案し,このデータセットの適用可能性を検証する。
論文 参考訳(メタデータ) (2023-04-28T09:32:09Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。