Fugu-MT 論文翻訳(概要): A Hierarchical Approach to exploiting Multiple Datasets from TalkBank

論文の概要: A Hierarchical Approach to exploiting Multiple Datasets from TalkBank

arxiv url: http://arxiv.org/abs/2306.12596v1
Date: Wed, 21 Jun 2023 22:37:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 15:54:12.369865
Title: A Hierarchical Approach to exploiting Multiple Datasets from TalkBank
Title（参考訳）: TalkBankの複数データセット活用のための階層的アプローチ
Authors: Man Ho Wong
Abstract要約: 本稿では、階層的な探索手法を用いて、効率的な複雑なデータ選択を可能にするパイプラインフレームワークを提案する。このフレームワークは、他のオープンサイエンスプラットフォームからのデータ処理にも適用できる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: TalkBank is an online database that facilitates the sharing of linguistics research data. However, the existing TalkBank's API has limited data filtering and batch processing capabilities. To overcome these limitations, this paper introduces a pipeline framework that employs a hierarchical search approach, enabling efficient complex data selection. This approach involves a quick preliminary screening of relevant corpora that a researcher may need, and then perform an in-depth search for target data based on specific criteria. The identified files are then indexed, providing easier access for future analysis. Furthermore, the paper demonstrates how data from different studies curated with the framework can be integrated by standardizing and cleaning metadata, allowing researchers to extract insights from a large, integrated dataset. While being designed for TalkBank, the framework can also be adapted to process data from other open-science platforms.
Abstract（参考訳）: TalkBankは、言語研究データの共有を容易にするオンラインデータベースである。しかし、既存のTalkBankのAPIはデータフィルタリングとバッチ処理の機能に制限がある。これらの制約を克服するために,階層的な探索手法を用いて,効率的な複雑なデータ選択を可能にするパイプラインフレームワークを提案する。このアプローチでは、研究者が必要とするコーパスを迅速に予備的にスクリーニングし、特定の基準に基づいてターゲットデータの詳細を探索する。識別されたファイルはインデックス化され、将来の分析に容易にアクセスできる。さらに、このフレームワークでキュレートされた異なる研究のデータをメタデータの標準化とクリーニングによって統合し、研究者が大規模な統合されたデータセットから洞察を抽出する方法を示す。 TalkBank用に設計されたこのフレームワークは、他のオープンサイエンスプラットフォームのデータ処理にも適用できる。

関連論文リスト

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Keywords are not always the key: A metadata field analysis for natural language search on open data portals [3.974422712382188]
個別のメタデータフィールドが対話型データセット検索の成功にどのように影響するかを検討する。メタデータフィールド「記述」の既存のコンテンツとLLM生成コンテンツを比較した。この結果から,データセット記述がユーザの意図と整合する上で重要な役割を担っていることが示唆された。
論文参考訳（メタデータ） (2025-09-17T22:14:27Z)
A Survey on Open Dataset Search in the LLM Era: Retrospectives and Perspectives [13.669798235894064]
私たちは、メタデータやキーワードに依存する従来のアプローチを超えて、オープンデータセット検索の進歩に重点を置いています。 LLMは、クエリ理解、セマンティックモデリング、オープンデータセット検索におけるインタラクティブガイダンスにおける複雑な課題に対処するのに役立つ。この研究は、オープンデータセット検索の分野における研究者や実践者に構造化された参照を提供することを目的としている。
論文参考訳（メタデータ） (2025-08-31T07:45:40Z)
TARGET: Benchmarking Table Retrieval for Generative Tasks [7.379012456053551]
TARGETは、GEnerative TasksのTAble Retrievalを評価するためのベンチマークである。我々は、異なる検索者の検索性能と、下流タスクへの影響を分離して分析する。密着型埋込型検索器はBM25ベースラインよりもはるかに優れており,非構造化テキストの検索よりも効率が低い。
論文参考訳（メタデータ） (2025-05-14T19:39:46Z)
Harmonizing Metadata of Language Resources for Enhanced Querying and Accessibility [0.0]
本稿では,言語資源の多種多様なリポジトリ(LR)からのメタデータの調和について述べる。我々の手法は,新たに開発されたポータルであるLinghubを通じて,テキストベースの検索,ファステッドブラウジング,高度なSPARQLクエリをサポートする。この研究は、メタデータの調和を高めるために、重要なメタデータの問題とオープンな語彙と標準に固執することを提唱する。
論文参考訳（メタデータ） (2025-01-09T22:48:43Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文参考訳（メタデータ） (2024-07-04T12:47:32Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文参考訳（メタデータ） (2024-06-23T06:58:55Z)
IQLS: Framework for leveraging Metadata to enable Large Language Model based queries to complex, versatile Data [0.20482269513546458]
Intelligent Query and Learning System (IQLS)は、自然言語を使ってデータ検索を単純化することで、プロセスを単純化する。利用可能なメタデータと利用可能なデータモデルに基づいて、構造化されたデータをフレームワークにマッピングする。 IQLSは、インターフェイスを通じてユーザクエリによって与えられるタスクをエージェントが実行可能にする。
論文参考訳（メタデータ） (2024-05-04T13:44:05Z)
ConvSDG: Session Data Generation for Conversational Search [29.211860955861244]
本稿では,セッションデータ生成のための大規模言語モデル(LLM)を用いて,対話型検索の実現可能性を検討する枠組みを提案する。このフレームワーク内では、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
論文参考訳（メタデータ） (2024-03-17T20:34:40Z)
Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models [0.0]
Retrieval-Augmented Generation アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。本研究では,RAGに基づくシステムにおいて,複雑なテーブルクエリの精度を高めるための革新的なアプローチを提案する。
論文参考訳（メタデータ） (2024-01-04T16:16:14Z)
DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文参考訳（メタデータ） (2023-05-26T05:22:36Z)
QBSUM: a Large-Scale Query-Based Document Summarization Dataset from Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文参考訳（メタデータ） (2020-10-27T07:30:04Z)
Conversations with Search Engines: SERP-based Conversational Response Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。 CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文参考訳（メタデータ） (2020-04-29T13:07:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。