Fugu-MT 論文翻訳(概要): Deep Active Learning for Data Mining from Conflict Text Corpora

論文の概要: Deep Active Learning for Data Mining from Conflict Text Corpora

arxiv url: http://arxiv.org/abs/2402.01577v1
Date: Fri, 2 Feb 2024 17:16:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 14:16:26.939289
Title: Deep Active Learning for Data Mining from Conflict Text Corpora
Title（参考訳）: 衝突テキストコーパスからのデータマイニングのための深層能動的学習
Authors: Mihai Croicu
Abstract要約: 本稿では,能動的学習を活用して,安価で高性能な手法を提案する。このアプローチは、人間の(ゴールドスタンダードの)コーディングに類似したパフォーマンスを示しながら、必要な人間のアノテーションの量を最大99%削減する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-resolution event data on armed conflict and related processes have revolutionized the study of political contention with datasets like UCDP GED, ACLED etc. However, most of these datasets limit themselves to collecting spatio-temporal (high-resolution) and intensity data. Information on dynamics, such as targets, tactics, purposes etc. are rarely collected owing to the extreme workload of collecting data. However, most datasets rely on a rich corpus of textual data allowing further mining of further information connected to each event. This paper proposes one such approach that is inexpensive and high performance, leveraging active learning - an iterative process of improving a machine learning model based on sequential (guided) human input. Active learning is employed to then step-wise train (fine-tuning) of a large, encoder-only language model adapted for extracting sub-classes of events relating to conflict dynamics. The approach shows performance similar to human (gold-standard) coding while reducing the amount of required human annotation by as much as 99%.
Abstract（参考訳）: 武装紛争と関連するプロセスに関する高解像度のイベントデータは、UCDP GEDやACLEDなどのデータセットによる政治的対立の研究に革命をもたらした。しかし、これらのデータセットのほとんどは、時空間(高解像度)と強度データの収集に制限されている。ターゲット、戦術、目的などのダイナミクスに関する情報は、データ収集の極端な作業負荷のため、まれに収集される。しかし、ほとんどのデータセットはリッチなテキストデータコーパスに依存しており、各イベントに関連付けられたさらなる情報のマイニングが可能である。本稿では、逐次(誘導)人間の入力に基づく機械学習モデルを改善する反復的プロセスであるアクティブラーニングを活用して、安価で高性能な手法を提案する。アクティブラーニングは、競合ダイナミクスに関連するイベントのサブクラスを抽出するために適応された大きなエンコーダのみの言語モデルのステップワイズトレーニング(ファインチューニング)に使用される。このアプローチは、人間の(ゴールドスタンダードの)コーディングに類似したパフォーマンスを示しながら、必要な人間のアノテーションの量を99%削減する。

関連論文リスト

Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文参考訳（メタデータ） (2024-09-20T09:53:27Z)
Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文参考訳（メタデータ） (2024-07-02T09:43:47Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。最近のデータ拡張手法は文法的誤りの問題を無視することが多い。本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-16T16:52:07Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文参考訳（メタデータ） (2021-10-24T22:33:52Z)
Pretraining Representations for Data-Efficient Reinforcement Learning [12.43475487724972]
ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。 Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
論文参考訳（メタデータ） (2021-06-09T04:14:27Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。