論文の概要: QRMine: A python package for triangulation in Grounded Theory
- arxiv url: http://arxiv.org/abs/2003.13519v1
- Date: Mon, 30 Mar 2020 14:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:31:52.363267
- Title: QRMine: A python package for triangulation in Grounded Theory
- Title(参考訳): qrmine: 接地理論における三角測量のためのpythonパッケージ
- Authors: Bell Raj Eapen, Norm Archer and Kamran Sartipi
- Abstract要約: グラウンドド理論(GT)は、データにグラウンドドされた理論を構築するための定性的研究手法である。
自然言語処理(NLP)を含む機械学習(ML)技術は、コーディングプロセスの研究者を支援することができる。
本稿では,GTにおけるコーディングと三角測量をサポートするため,さまざまなMLおよびNLPライブラリをカプセル化したオープンソースのpythonパッケージ(QRMine)を提案する。
- 参考スコア(独自算出の注目度): 3.383942690870476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded theory (GT) is a qualitative research method for building theory
grounded in data. GT uses textual and numeric data and follows various stages
of coding or tagging data for sense-making, such as open coding and selective
coding. Machine Learning (ML) techniques, including natural language processing
(NLP), can assist the researchers in the coding process. Triangulation is the
process of combining various types of data. ML can facilitate deriving insights
from numerical data for corroborating findings from the textual interview
transcripts. We present an open-source python package (QRMine) that
encapsulates various ML and NLP libraries to support coding and triangulation
in GT. QRMine enables researchers to use these methods on their data with
minimal effort. Researchers can install QRMine from the python package index
(PyPI) and can contribute to its development. We believe that the concept of
computational triangulation will make GT relevant in the realm of big data.
- Abstract(参考訳): グラウンドド理論(GT)は、データに基づく理論を構築するための定性的研究手法である。
GTはテキストデータと数値データを使用し、オープンコーディングや選択的コーディングなど、センスメイキングのためのコーディングやタグ付けのさまざまな段階に従う。
自然言語処理(NLP)を含む機械学習(ML)技術は、コーディングプロセスの研究者を支援することができる。
三角法は様々な種類のデータを組み合わせるプロセスである。
MLは、数値データから洞察を導出し、テキストインタビューテキストからの発見を裏付ける。
本稿では,GTにおけるコーディングと三角測量をサポートするため,さまざまなMLおよびNLPライブラリをカプセル化したオープンソースのpythonパッケージ(QRMine)を提案する。
QRMineは、研究者が最小限の努力でこれらの手法をデータに利用できるようにする。
研究者はpython package index(PyPI)からQRMineをインストールでき、開発に貢献できる。
計算三角測量の概念は、GTをビッグデータの領域に関連付けると信じている。
関連論文リスト
- Differentially Private Synthetic Data via Foundation Model APIs 2: Text [57.64059482750924]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - Creating a Dataset for High-Performance Computing Code Translation using
LLMs: A Bridge Between OpenMP Fortran and C++ [7.872005563259838]
定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,本データセットの有効性を評価する。
事前のコーディング知識を持たないモデルでは、CodeBLEUスコアで$mathbftimes5.1$が上昇した。
コーディングに親しみのあるモデルでは、$mathbftimes9.9$-foldが顕著に増加した。
論文 参考訳(メタデータ) (2023-07-15T02:35:51Z) - The Stack: 3 TB of permissively licensed source code [22.522188673911792]
Stackは、30のプログラミング言語でパーミッシブにライセンスされたソースコードのデータセットである。
以前報告されたHumanEvalとMBPPのパフォーマンスは、パーミッシブライセンスデータのみを使用して一致させることができる。
論文 参考訳(メタデータ) (2022-11-20T18:15:30Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - PyRelationAL: A Library for Active Learning Research and Development [0.11545092788508224]
PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - Evaluating few shot and Contrastive learning Methods for Code Clone
Detection [5.1623866691702744]
コードクローン検出(Code Clone Detection)は、盗作検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。
ディープラーニングベースのモデルは、CodeXGLUEベンチマークで$sim$95%のF1スコア(分類器の評価に用いられる指標)を達成した。
注釈付きデータが限られているこれらのモデルの一般化性を評価する以前の研究はない。
論文 参考訳(メタデータ) (2022-04-15T15:01:55Z) - Blow the Dog Whistle: A Chinese Dataset for Cant Understanding with
Common Sense and World Knowledge [49.288196234823005]
カントは、広告、喜劇、ドッグウィストル政治を理解するために重要である。
カントの作成と理解のための大規模で多様な中国データセットを提案します。
論文 参考訳(メタデータ) (2021-04-06T17:55:43Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - MOGPTK: The Multi-Output Gaussian Process Toolkit [71.08576457371433]
ガウス過程(GP)を用いたマルチチャネルデータモデリングのためのPythonパッケージMOGPTKを提案する。
このツールキットの目的は、研究者、データサイエンティスト、実践者にもMOGP(multi-output GP)モデルを利用できるようにすることである。
論文 参考訳(メタデータ) (2020-02-09T23:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。