論文の概要: A Feasibility Experiment on the Application of Predictive Coding to Instant Messaging Corpora
- arxiv url: http://arxiv.org/abs/2508.11084v1
- Date: Thu, 14 Aug 2025 21:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.679317
- Title: A Feasibility Experiment on the Application of Predictive Coding to Instant Messaging Corpora
- Title(参考訳): インスタントメッセージコーパスへの予測符号化の適用可能性実験
- Authors: Thanasis Schoinas, Ghulam Qadir,
- Abstract要約: データ管理のワークフローを利用して、メッセージを日々のチャットにグループ化し、続いて特徴選択とロジスティック回帰分類を行う。
定量的な情報に富んだInstant Bloombergデータセット上で、我々の方法論をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive coding, the term used in the legal industry for document classification using machine learning, presents additional challenges when the dataset comprises instant messages, due to their informal nature and smaller sizes. In this paper, we exploit a data management workflow to group messages into day chats, followed by feature selection and a logistic regression classifier to provide an economically feasible predictive coding solution. We also improve the solution's baseline model performance by dimensionality reduction, with focus on quantitative features. We test our methodology on an Instant Bloomberg dataset, rich in quantitative information. In parallel, we provide an example of the cost savings of our approach.
- Abstract(参考訳): 予測符号化(英: Predictive coding)とは、機械学習を用いた文書分類法で用いられる用語で、データセットがインスタントメッセージを構成する場合、その非公式な性質と小さなサイズのため、さらなる課題が提示される。
本稿では、日中チャットにメッセージをグループ化するためのデータ管理ワークフローを利用し、続いて特徴選択とロジスティック回帰分類器を用いて、経済的に実現可能な予測符号化ソリューションを提供する。
また,量的特徴に焦点をあて,次元還元による解のベースラインモデル性能も向上する。
我々は、定量情報に富んだInstant Bloombergデータセット上で、我々の方法論をテストする。
並行して、私たちはアプローチのコスト削減の例を示します。
関連論文リスト
- Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Graph-based Reinforcement Learning for Active Learning in Real Time: An
Application in Modeling River Networks [2.8631830115500394]
本研究では,空間的・時間的文脈情報を用いたリアルタイム能動学習手法を開発し,強化学習フレームワークにおける代表的クエリサンプルの選択を行う。
ラベル付きデータ収集の予算が限られているデラウェア川流域において, 流水量と水温を予測し, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-27T02:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。