論文の概要: GLARE: Google Apps Arabic Reviews Dataset
- arxiv url: http://arxiv.org/abs/2412.15259v1
- Date: Mon, 16 Dec 2024 14:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:28.494698
- Title: GLARE: Google Apps Arabic Reviews Dataset
- Title(参考訳): GLARE: Google Apps Arabicがデータセットをレビュー
- Authors: Fatima AlGhamdi, Reem Mohammed, Hend Al-Khalifa, Areeb Alowisheq,
- Abstract要約: 本稿では,サウジアラビアのGoogle PlayStoreから収集したアラビアアプリレビューデータセットであるGLAREを紹介する。
7600万のレビューで構成され、そのうち69万は9,980のAndroidアプリケーションに関するアラビア語レビューである。
本稿では,データ収集手法と詳細な探索データ解析 (EDA) と特徴工学をまとめて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces GLARE an Arabic Apps Reviews dataset collected from Saudi Google PlayStore. It consists of 76M reviews, 69M of which are Arabic reviews of 9,980 Android Applications. We present the data collection methodology, along with a detailed Exploratory Data Analysis (EDA) and Feature Engineering on the gathered reviews. We also highlight possible use cases and benefits of the dataset.
- Abstract(参考訳): 本稿では,サウジアラビアのGoogle PlayStoreから収集したアラビアアプリレビューデータセットであるGLAREを紹介する。
7600万のレビューで構成され、そのうち69万は9,980のAndroidアプリケーションに関するアラビア語レビューである。
本稿では,データ収集手法と詳細な探索データ解析 (EDA) と特徴工学をまとめて紹介する。
また、データセットの可能なユースケースとメリットも強調します。
関連論文リスト
- Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - BanglishRev: A Large-Scale Bangla-English and Code-mixed Dataset of Product Reviews in E-Commerce [2.5874041837241304]
本研究は、英語のベンガル語で書かれたレビューと、英語のアルファベットで書かれたバングリッシュ・ベンガル語を混ぜたレビューのために、これまでで最大のeコマース製品レビューデータセットを提示する。
このデータセットは、ベンガル人を対象にしたオンライン電子商取引プラットフォームで販売されている128万の製品から収集された320万のレーティング情報から144万件のレビューが作成されている。
レビューには、レビュー者からのレーティング、レビューが投稿された日、購入日、いいね!の件数、嫌悪感、売り手からの反応、レビューに関連する画像などを含む、レビューごとに関連するメタデータの広範囲が含まれている。
論文 参考訳(メタデータ) (2024-12-17T18:39:10Z) - Do Android App Developers Accurately Report Collection of Privacy-Related Data? [5.863391019411233]
欧州連合(EU)の一般保護規則は、ベンダーに対し、アプリが収集したデータを忠実に開示するよう求めている。
多くのAndroidアプリは、同じ情報のためにサードパーティのコードを使用するが、すぐには利用できない。
プライバシ関連のデータの多層的定義を最初に公開し,Androidアプリのコレクションを正しくレポートする。
次にプライバシに敏感なデータクラスのデータセットを作成して,Androidアプリの入力として使用します。
論文 参考訳(メタデータ) (2024-09-06T10:05:45Z) - ARAP: Demystifying Anti Runtime Analysis Code in Android Apps [2.659136176340473]
セキュリティ対策を回避するために、多くの悪意あるアプリがアンチアナリシス技術を採用している。
本稿では,117,171個のAndroidアプリケーションを対象に,ARAの実装に関する最初の体系的研究を行う。
ほとんど全てのアプリがARAテクノロジーの少なくとも1つのカテゴリを実装している。
論文 参考訳(メタデータ) (2024-08-20T02:50:56Z) - ArabicaQA: A Comprehensive Dataset for Arabic Question Answering [13.65056111661002]
アラビカQAは、アラビア語で機械読解とオープンドメイン質問応答のための最初の大規模データセットである。
また、アラビア語ウィキペディアコーパスで訓練された最初の高密度経路探索モデルであるAraDPRを提示する。
論文 参考訳(メタデータ) (2024-03-26T16:37:54Z) - A Decade of Privacy-Relevant Android App Reviews: Large Scale Trends [20.714617724462393]
私たちは、時間、国、アプリタイプ、さまざまなプライバシトピック、さらにはさまざまな感情にまたがって、ユーザーがプライバシーについて何を書いているかを調べます。
プライバシーレビューは200か国以上から来るが、33か国はプライバシーレビューの90%を提供している。
驚いたことに、プライバシーを議論するレビューが肯定的であることは珍しくない(32%)。
論文 参考訳(メタデータ) (2024-03-04T18:21:56Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset [75.9621305227523]
LMSYS-Chat-1M(LMSYS-Chat-1M)について紹介する。
このデータセットは、VicunaのデモとArenaのWebサイトで、210KのIPアドレスから収集されています。
GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成、という4つのユースケースを通じて、その汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-21T12:13:55Z) - OpenIllumination: A Multi-Illumination Dataset for Inverse Rendering
Evaluation on Real Objects [56.065616159398324]
我々は,64個のオブジェクトの108K画像を含む実世界のデータセットであるOpenIlluminationを紹介した。
データセットの各画像に対して、正確なカメラパラメータ、照明場真理、前景セグメンテーションマスクを提供する。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。