論文の概要: Is it feasible to detect FLOSS version release events from textual
messages? A case study on Stack Overflow
- arxiv url: http://arxiv.org/abs/2003.14257v3
- Date: Sat, 19 Dec 2020 12:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:18:01.561516
- Title: Is it feasible to detect FLOSS version release events from textual
messages? A case study on Stack Overflow
- Title(参考訳): FLOSSバージョンリリースイベントをテキストメッセージから検出することは可能か?
stack overflow のケーススタディ
- Authors: A. Sokolovsky, T. Gross, J. Bacardit
- Abstract要約: 本研究は,Stack Overflow Q&Aプラットフォームからのメッセージのサンプルを用いて,テキストデータのマイクロイベント検出の実現可能性について検討した。
格子探索手法を用いてパラメータを最適化した3つの異なる推定器を用いて,マイクロイベントの検出のためのパイプラインを構築した。
実験では,マイクロイベントの前後における話題の分布や感情の特徴の変化について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic Detection and Tracking (TDT) is a very active research question within
the area of text mining, generally applied to news feeds and Twitter datasets,
where topics and events are detected. The notion of "event" is broad, but
typically it applies to occurrences that can be detected from a single post or
a message. Little attention has been drawn to what we call "micro-events",
which, due to their nature, cannot be detected from a single piece of textual
information. The study investigates the feasibility of micro-event detection on
textual data using a sample of messages from the Stack Overflow Q&A platform
and Free/Libre Open Source Software (FLOSS) version releases from Libraries.io
dataset. We build pipelines for detection of micro-events using three different
estimators whose parameters are optimized using a grid search approach. We
consider two feature spaces: LDA topic modeling with sentiment analysis, and
hSBM topics with sentiment analysis. The feature spaces are optimized using the
recursive feature elimination with cross validation (RFECV) strategy.
In our experiments we investigate whether there is a characteristic change in
the topics distribution or sentiment features before or after micro-events take
place and we thoroughly evaluate the capacity of each variant of our analysis
pipeline to detect micro-events. Additionally, we perform a detailed
statistical analysis of the models, including influential cases, variance
inflation factors, validation of the linearity assumption, pseudo R squared
measures and no-information rate. Finally, in order to study limits of
micro-event detection, we design a method for generating micro-event synthetic
datasets with similar properties to the real-world data, and use them to
identify the micro-event detectability threshold for each of the evaluated
classifiers.
- Abstract(参考訳): トピック検出と追跡(TDT)はテキストマイニング領域における非常に活発な研究課題であり、一般的にトピックやイベントを検出するニュースフィードやTwitterデータセットに適用される。
イベント"の概念は広いが、通常は単一のポストやメッセージから検出できる事象に適用される。
マイクロイベント(micro-events)と呼ばれるもので、その性質上、単一のテキスト情報からは検出できない。
この研究は、Stack Overflow Q&AプラットフォームのメッセージのサンプルとLibraries.ioデータセットのFree/Libre Open Source Software(FLOSS)バージョンリリースを使用して、テキストデータ上でのマイクロイベント検出の実現可能性を検討する。
格子探索手法を用いてパラメータを最適化した3つの異なる推定器を用いてマイクロイベントを検出するパイプラインを構築する。
我々は、感情分析を伴うLDAトピックモデリングと、感情分析を伴うhSBMトピックの2つの特徴空間を考える。
特徴空間は、クロスバリデーション(RFECV)戦略による再帰的特徴除去を用いて最適化される。
本研究では,マイクロイベント発生前後のトピック分布や感情特性に特徴的な変化があるかどうかを考察し,マイクロイベント検出のための分析パイプラインの各バリエーションのキャパシティを徹底的に評価する。
さらに, 影響事例, 分散インフレーション係数, 線形性仮定の検証, 擬似R2乗測度, 無情報率など, モデルに関する詳細な統計分析を行った。
最後に,マイクロイベント検出の限界を研究するために,実世界のデータに類似した特性を持つマイクロイベント合成データセットを生成する手法を設計し,評価された各分類器のマイクロイベント検出可能性閾値を同定する。
関連論文リスト
- Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Joint Microseismic Event Detection and Location with a Detection Transformer [8.505271826735118]
イベント検出とソース位置をひとつのフレームワークに統合する手法を提案する。
提案するネットワークは、ランダムな震源位置に対応する複数の微小地震事象をシミュレートした合成データに基づいて訓練される。
論文 参考訳(メタデータ) (2023-07-16T10:56:46Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Data Leakage and Evaluation Issues in Micro-Expression Analysis [45.215233522470115]
マイクロ圧縮の文献では,データ漏洩と断片化評価プロトコルが問題となっている。
そこで我々は,2000以上のマイクロ圧縮サンプルを用いた顔動作ユニットを用いた新しい評価プロトコルを提案し,その評価プロトコルを標準化された方法で実装したオープンソースライブラリを提供する。
論文 参考訳(メタデータ) (2022-11-21T13:12:07Z) - Unsupervised Event Detection, Clustering, and Use Case Exposition in
Micro-PMU Measurements [0.0]
我々はGAN(Generative Adversarial Networks)の概念に基づく教師なしイベント検出手法を開発した。
また,線形混合整数計画法に基づく2段階のアン教師なしクラスタリング手法を提案する。
結果から,本研究で広く普及している手法に勝るものであることが示唆された。
論文 参考訳(メタデータ) (2020-07-30T05:20:29Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。