論文の概要: Arukikata Travelogue Dataset
- arxiv url: http://arxiv.org/abs/2305.11444v1
- Date: Fri, 19 May 2023 05:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:14:26.913940
- Title: Arukikata Travelogue Dataset
- Title(参考訳): arukikata travelogueデータセット
- Authors: Hiroki Ouchi, Hiroyuki Shindo, Shoko Wakamiya, Yuki Matsuda, Naoya
Inoue, Shohei Higashiyama, Satoshi Nakamura, Taro Watanabe
- Abstract要約: 我々はArukikata Travelogueデータセットを構築し,学術研究のために無償で公開した。
このデータセットは、日本人の国内旅行者4,672人、海外旅行者9,607人からなる合計31万語以上の日本語テキストデータセットである。
- 参考スコア(独自算出の注目度): 27.99107754459929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have constructed Arukikata Travelogue Dataset and released it free of
charge for academic research. This dataset is a Japanese text dataset with a
total of over 31 million words, comprising 4,672 Japanese domestic travelogues
and 9,607 overseas travelogues. Before providing our dataset, there was a
scarcity of widely available travelogue data for research purposes, and each
researcher had to prepare their own data. This hinders the replication of
existing studies and fair comparative analysis of experimental results. Our
dataset enables any researchers to conduct investigation on the same data and
to ensure transparency and reproducibility in research. In this paper, we
describe the academic significance, characteristics, and prospects of our
dataset.
- Abstract(参考訳): 我々は,arukikata travelogueデータセットを構築し,学術研究のための無償公開を行った。
このデータセットは、国内旅行4,672件、海外旅行9,607件からなる、合計3100万語以上の日本語テキストデータセットである。
データセットを提供する前は、研究目的のために広く利用可能なトラベローグデータが少なく、各研究者は独自のデータを用意する必要があった。
これにより、既存の研究の再現と実験結果の公平な比較分析が妨げられる。
当社のデータセットでは、研究者が同じデータを調査し、研究における透明性と再現性を確保することができます。
本稿では,データセットの学術的意義,特徴,今後の展望について述べる。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset
Evaluation for Text Classification [39.01740345482624]
本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。
9つのデータセットと36のシステムでの実験では、いくつかの既存のベンチマークデータセットはトップスコアシステムの識別にはほとんど寄与していない。
論文 参考訳(メタデータ) (2022-05-04T15:33:00Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。