論文の概要: A Feasibility Experiment on the Application of Predictive Coding to Instant Messaging Corpora
- arxiv url: http://arxiv.org/abs/2508.11084v1
- Date: Thu, 14 Aug 2025 21:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.679317
- Title: A Feasibility Experiment on the Application of Predictive Coding to Instant Messaging Corpora
- Title(参考訳): インスタントメッセージコーパスへの予測符号化の適用可能性実験
- Authors: Thanasis Schoinas, Ghulam Qadir,
- Abstract要約: データ管理のワークフローを利用して、メッセージを日々のチャットにグループ化し、続いて特徴選択とロジスティック回帰分類を行う。
定量的な情報に富んだInstant Bloombergデータセット上で、我々の方法論をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive coding, the term used in the legal industry for document classification using machine learning, presents additional challenges when the dataset comprises instant messages, due to their informal nature and smaller sizes. In this paper, we exploit a data management workflow to group messages into day chats, followed by feature selection and a logistic regression classifier to provide an economically feasible predictive coding solution. We also improve the solution's baseline model performance by dimensionality reduction, with focus on quantitative features. We test our methodology on an Instant Bloomberg dataset, rich in quantitative information. In parallel, we provide an example of the cost savings of our approach.
- Abstract(参考訳): 予測符号化(英: Predictive coding)とは、機械学習を用いた文書分類法で用いられる用語で、データセットがインスタントメッセージを構成する場合、その非公式な性質と小さなサイズのため、さらなる課題が提示される。
本稿では、日中チャットにメッセージをグループ化するためのデータ管理ワークフローを利用し、続いて特徴選択とロジスティック回帰分類器を用いて、経済的に実現可能な予測符号化ソリューションを提供する。
また,量的特徴に焦点をあて,次元還元による解のベースラインモデル性能も向上する。
我々は、定量情報に富んだInstant Bloombergデータセット上で、我々の方法論をテストする。
並行して、私たちはアプローチのコスト削減の例を示します。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Compute-Efficient Active Learning [0.0]
アクティブラーニングは、ラベルなしデータセットから最も有益なサンプルを選択することでラベリングコストを削減することを目的としている。
従来のアクティブな学習プロセスは、拡張性と効率を阻害する広範な計算資源を必要とすることが多い。
本稿では,大規模データセット上での能動的学習に伴う計算負担を軽減するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T12:32:07Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - Graph-based Reinforcement Learning for Active Learning in Real Time: An
Application in Modeling River Networks [2.8631830115500394]
本研究では,空間的・時間的文脈情報を用いたリアルタイム能動学習手法を開発し,強化学習フレームワークにおける代表的クエリサンプルの選択を行う。
ラベル付きデータ収集の予算が限られているデラウェア川流域において, 流水量と水温を予測し, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-27T02:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。