論文の概要: A Hierarchical Approach to exploiting Multiple Datasets from TalkBank
- arxiv url: http://arxiv.org/abs/2306.12596v1
- Date: Wed, 21 Jun 2023 22:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:54:12.369865
- Title: A Hierarchical Approach to exploiting Multiple Datasets from TalkBank
- Title(参考訳): TalkBankの複数データセット活用のための階層的アプローチ
- Authors: Man Ho Wong
- Abstract要約: 本稿では、階層的な探索手法を用いて、効率的な複雑なデータ選択を可能にするパイプラインフレームワークを提案する。
このフレームワークは、他のオープンサイエンスプラットフォームからのデータ処理にも適用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: TalkBank is an online database that facilitates the sharing of linguistics
research data. However, the existing TalkBank's API has limited data filtering
and batch processing capabilities. To overcome these limitations, this paper
introduces a pipeline framework that employs a hierarchical search approach,
enabling efficient complex data selection. This approach involves a quick
preliminary screening of relevant corpora that a researcher may need, and then
perform an in-depth search for target data based on specific criteria. The
identified files are then indexed, providing easier access for future analysis.
Furthermore, the paper demonstrates how data from different studies curated
with the framework can be integrated by standardizing and cleaning metadata,
allowing researchers to extract insights from a large, integrated dataset.
While being designed for TalkBank, the framework can also be adapted to process
data from other open-science platforms.
- Abstract(参考訳): TalkBankは、言語研究データの共有を容易にするオンラインデータベースである。
しかし、既存のTalkBankのAPIはデータフィルタリングとバッチ処理の機能に制限がある。
これらの制約を克服するために,階層的な探索手法を用いて,効率的な複雑なデータ選択を可能にするパイプラインフレームワークを提案する。
このアプローチでは、研究者が必要とするコーパスを迅速に予備的にスクリーニングし、特定の基準に基づいてターゲットデータの詳細を探索する。
識別されたファイルはインデックス化され、将来の分析に容易にアクセスできる。
さらに、このフレームワークでキュレートされた異なる研究のデータをメタデータの標準化とクリーニングによって統合し、研究者が大規模な統合されたデータセットから洞察を抽出する方法を示す。
TalkBank用に設計されたこのフレームワークは、他のオープンサイエンスプラットフォームのデータ処理にも適用できる。
関連論文リスト
- ConvSDG: Session Data Generation for Conversational Search [29.211860955861244]
本稿では,セッションデータ生成のための大規模言語モデル(LLM)を用いて,対話型検索の実現可能性を検討する枠組みを提案する。
このフレームワーク内では、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。
生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
論文 参考訳(メタデータ) (2024-03-17T20:34:40Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Beyond Extraction: Contextualising Tabular Data for Efficient
Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。
本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-04T16:16:14Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - OPTION: OPTImization Algorithm Benchmarking ONtology [4.060078409841919]
OPTION (OPTImization algorithm benchmarking ONtology) は、ベンチマークアルゴリズムのための意味的にリッチでマシン可読なデータモデルである。
私たちのオントロジーは、ベンチマークプロセスに関わるコアエンティティのセマンティックアノテーションに必要な語彙を提供します。
また、自動データ統合、相互運用性の改善、強力なクエリ機能、推論のための手段も提供する。
論文 参考訳(メタデータ) (2021-04-24T06:11:30Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。