論文の概要: A Survey on Open Dataset Search in the LLM Era: Retrospectives and Perspectives
- arxiv url: http://arxiv.org/abs/2509.00728v1
- Date: Sun, 31 Aug 2025 07:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.362983
- Title: A Survey on Open Dataset Search in the LLM Era: Retrospectives and Perspectives
- Title(参考訳): LLM時代のオープンデータセット探索に関する調査--ふりかえりと展望
- Authors: Pengyue Li, Sheng Wang, Hua Dai, Zhiyu Chen, Zhifeng Bao, Brian D. Davison,
- Abstract要約: 私たちは、メタデータやキーワードに依存する従来のアプローチを超えて、オープンデータセット検索の進歩に重点を置いています。
LLMは、クエリ理解、セマンティックモデリング、オープンデータセット検索におけるインタラクティブガイダンスにおける複雑な課題に対処するのに役立つ。
この研究は、オープンデータセット検索の分野における研究者や実践者に構造化された参照を提供することを目的としている。
- 参考スコア(独自算出の注目度): 13.669798235894064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality datasets are typically required for accomplishing data-driven tasks, such as training medical diagnosis models, predicting real-time traffic conditions, or conducting experiments to validate research hypotheses. Consequently, open dataset search, which aims to ensure the efficient and accurate fulfillment of users' dataset requirements, has emerged as a critical research challenge and has attracted widespread interest. Recent studies have made notable progress in enhancing the flexibility and intelligence of open dataset search, and large language models (LLMs) have demonstrated strong potential in addressing long-standing challenges in this area. Therefore, a systematic and comprehensive review of the open dataset search problem is essential, detailing the current state of research and exploring future directions. In this survey, we focus on recent advances in open dataset search beyond traditional approaches that rely on metadata and keywords. From the perspective of dataset modalities, we place particular emphasis on example-based dataset search, advanced similarity measurement techniques based on dataset content, and efficient search acceleration techniques. In addition, we emphasize the mutually beneficial relationship between LLMs and open dataset search. On the one hand, LLMs help address complex challenges in query understanding, semantic modeling, and interactive guidance within open dataset search. In turn, advances in dataset search can support LLMs by enabling more effective integration into retrieval-augmented generation (RAG) frameworks and data selection processes, thereby enhancing downstream task performance. Finally, we summarize open research problems and outline promising directions for future work. This work aims to offer a structured reference for researchers and practitioners in the field of open dataset search.
- Abstract(参考訳): 高品質なデータセットは、典型的には、医療診断モデルのトレーニング、リアルタイムの交通条件の予測、研究仮説の検証実験など、データ駆動タスクを達成するために必要である。
その結果、ユーザのデータセット要求の効率的かつ正確な充足を保証することを目的としたオープンデータセット検索が、重要な研究課題として現れ、広く関心を集めている。
近年の研究では、オープンデータセット検索の柔軟性と知性の向上が目覚ましい進歩を遂げており、大規模言語モデル(LLM)は、この分野における長年の課題に対処する大きな可能性を示している。
したがって、オープンデータセット検索問題に対する体系的かつ包括的なレビューが不可欠であり、研究の現状と今後の方向性について詳述する。
本稿では,メタデータやキーワードに依存する従来のアプローチを超えて,オープンデータセット検索の最近の進歩に注目した。
データセットのモダリティの観点からは、サンプルベースのデータセット検索、データセットの内容に基づく高度な類似度測定技術、効率的な検索アクセラレーション技術に特に重点を置いている。
さらに,LLMとオープンデータセット検索の相互に有益な関係を強調した。
一方、LLMはクエリ理解、セマンティックモデリング、オープンデータセット検索におけるインタラクティブガイダンスにおける複雑な課題に対処するのに役立つ。
逆に、データセット検索の進歩は、検索強化世代(RAG)フレームワークやデータ選択プロセスへのより効果的な統合を可能にし、下流タスクのパフォーマンスを向上させることで、LLMをサポートすることができる。
最後に,オープンな研究課題を概説し,今後の研究に向けた有望な方向性を概説する。
この研究は、オープンデータセット検索の分野における研究者や実践者に構造化された参照を提供することを目的としている。
関連論文リスト
- DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery [26.388978716803464]
AIエージェントは、通常の検索を超越して、特定のユーザ要求を満たすデータセットを体系的に検出できるだろうか?
我々のベンチマークと包括的な分析は、次世代の自己改善型AIシステムの基礎を提供する。
論文 参考訳(メタデータ) (2025-08-09T12:15:08Z) - A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges [30.146391942071126]
大規模言語モデル (LLM) はウェブ検索に革命をもたらした。
これらのエージェントは、ユーザの意図や環境状況を理解することができる。
本調査は,検索エージェントの系統的分析を初めて行った。
論文 参考訳(メタデータ) (2025-08-03T08:02:51Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。