論文の概要: From keywords to semantics: Perceptions of large language models in data discovery
- arxiv url: http://arxiv.org/abs/2510.01473v1
- Date: Wed, 01 Oct 2025 21:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.881009
- Title: From keywords to semantics: Perceptions of large language models in data discovery
- Title(参考訳): キーワードから意味へ:データ発見における大規模言語モデルの知覚
- Authors: Maura E Halstead, Mark A. Green, Caroline Jay, Richard Kingston, David Topping, Alexander Singleton,
- Abstract要約: 大規模言語モデル(LLM)は、研究者が自然言語で質問できることによって、データ発見を強化することができる。
我々の概念モデルでは、研究者が現在の技術の代わりにLLMを使うには、潜在的な利点が十分でないことが示されている。
バリアは研究者がLLMを完全に受け入れることを防ぐが、透明性に関する特徴はそれを克服する可能性がある。
- 参考スコア(独自算出の注目度): 39.10498409170182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to data discovery match keywords between metadata and queries. This matching requires researchers to know the exact wording that other researchers previously used, creating a challenging process that could lead to missing relevant data. Large Language Models (LLMs) could enhance data discovery by removing this requirement and allowing researchers to ask questions with natural language. However, we do not currently know if researchers would accept LLMs for data discovery. Using a human-centered artificial intelligence (HCAI) focus, we ran focus groups (N = 27) to understand researchers' perspectives towards LLMs for data discovery. Our conceptual model shows that the potential benefits are not enough for researchers to use LLMs instead of current technology. Barriers prevent researchers from fully accepting LLMs, but features around transparency could overcome them. Using our model will allow developers to incorporate features that result in an increased acceptance of LLMs for data discovery.
- Abstract(参考訳): データ発見への現在のアプローチは、メタデータとクエリ間のキーワードにマッチする。
このマッチングには、他の研究者が以前使用していた正確な単語を知っておく必要がある。
大きな言語モデル(LLM)は、この要件を取り除き、研究者が自然言語で質問できるようにすることで、データ発見を強化することができる。
しかし、研究者がデータ発見のためにLLMを受け入れるかどうかはまだ分かっていない。
人間中心人工知能(HCAI)の焦点を用いて、データ発見のためのLLMに対する研究者の視点を理解するためにフォーカスグループ(N = 27)を実行しました。
我々の概念モデルでは、研究者が現在の技術の代わりにLLMを使うには、潜在的な利点が十分でないことが示されている。
バリアは研究者がLLMを完全に受け入れるのを防ぐが、透明性に関する特徴はそれを克服する可能性がある。
私たちのモデルを使用することで、開発者はデータ発見のためのLLMの受け入れが増大する機能を組み込めるようになります。
関連論文リスト
- A Survey on Open Dataset Search in the LLM Era: Retrospectives and Perspectives [13.669798235894064]
私たちは、メタデータやキーワードに依存する従来のアプローチを超えて、オープンデータセット検索の進歩に重点を置いています。
LLMは、クエリ理解、セマンティックモデリング、オープンデータセット検索におけるインタラクティブガイダンスにおける複雑な課題に対処するのに役立つ。
この研究は、オープンデータセット検索の分野における研究者や実践者に構造化された参照を提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-31T07:45:40Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Evaluating the Semantic Profiling Abilities of LLMs for Natural Language Utterances in Data Visualization [14.706166701856327]
データビジュアライゼーションのための自然言語インタフェース(NLI)は、そのような情報を推測する方法を模索してきたが、人間の発話に固有の不確実性のため、課題は続いている。
近年のLarge Language Models (LLM) の進歩はこれらの課題に対処するための道筋を提供するが、関連する意味情報を抽出する能力は未解明のままである。
論文 参考訳(メタデータ) (2024-07-08T17:04:31Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Had enough of experts? Quantitative knowledge retrieval from large language models [4.091195951668217]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
我々は、専門家のような事前知識を抽出し、欠落したデータを出力することで、LLMを活用してベイズモデルを強化するフレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。