論文の概要: Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches
- arxiv url: http://arxiv.org/abs/2404.14465v1
- Date: Mon, 22 Apr 2024 12:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:07:28.880419
- Title: Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches
- Title(参考訳): 高度テキスト匿名化手法のベンチマーク:新しいアプローチと伝統的アプローチの比較研究
- Authors: Dimitris Asimopoulos, Ilias Siniosoglou, Vasileios Argyriou, Thomai Karamitsou, Eleftherios Fountoukidis, Sotirios K. Goudos, Ioannis D. Moscholios, Konstantinos E. Psannis, Panagiotis Sarigiannidis,
- Abstract要約: 本稿では,変圧器モデルと大規模言語モデルの性能を,テキスト匿名化のための従来のアーキテクチャと比較する。
本研究は, 従来の手法と現代手法の有効性について, それぞれのアプローチの長所と短所を明らかにした。
- 参考スコア(独自算出の注目度): 5.891554349884001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of data privacy, the ability to effectively anonymise text is paramount. With the proliferation of deep learning and, in particular, transformer architectures, there is a burgeoning interest in leveraging these advanced models for text anonymisation tasks. This paper presents a comprehensive benchmarking study comparing the performance of transformer-based models and Large Language Models(LLM) against traditional architectures for text anonymisation. Utilising the CoNLL-2003 dataset, known for its robustness and diversity, we evaluate several models. Our results showcase the strengths and weaknesses of each approach, offering a clear perspective on the efficacy of modern versus traditional methods. Notably, while modern models exhibit advanced capabilities in capturing con textual nuances, certain traditional architectures still keep high performance. This work aims to guide researchers in selecting the most suitable model for their anonymisation needs, while also shedding light on potential paths for future advancements in the field.
- Abstract(参考訳): データプライバシの領域では、テキストを効果的に匿名化する能力が最も重要です。
ディープラーニングの普及、特にトランスフォーマーアーキテクチャにより、これらの高度なモデルをテキスト匿名化タスクに活用することへの関心が高まっている。
本稿では,トランスフォーマーモデルとLarge Language Models(LLM)の性能を,テキスト匿名化のための従来のアーキテクチャと比較した総合的なベンチマーク研究を提案する。
頑丈さと多様性で知られているCoNLL-2003データセットを用いて,いくつかのモデルを評価する。
本研究は, 従来の手法と現代手法の有効性について, それぞれのアプローチの長所と短所を明らかにした。
特に、現代のモデルは、テキストのニュアンスをキャプチャする高度な能力を示しているが、一部の伝統的なアーキテクチャは高いパフォーマンスを維持している。
この研究は、研究者が匿名化のニーズに最も適したモデルを選択するのを誘導することを目的としている。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Evaluating the Efficacy of AI Techniques in Textual Anonymization: A Comparative Study [5.962542204378336]
本研究では、条件付きランダムフィールド(CRF)、Long Short-Term Memory(LSTM)、Embedddings from Language Models(ELMo)、Transformersアーキテクチャに焦点を当てたテキスト匿名化手法に焦点を当てた。
CRF, LSTM, ELMoは, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-09T11:29:25Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Privacy- and Utility-Preserving NLP with Anonymized Data: A case study
of Pseudonymization [22.84767881115746]
私たちの研究は、オリジナルデータと匿名データのギャップに関する重要な洞察を提供します。
コード、偽名付きデータセット、ダウンストリームモデルを公開しています。
論文 参考訳(メタデータ) (2023-06-08T21:06:19Z) - Fine-grained Text Style Transfer with Diffusion-Based Language Models [50.02698074338317]
微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いて拡散モデルを構築した。
本モデルでは, 個人と作曲の両方において, 最先端の性能を達成できた。
論文 参考訳(メタデータ) (2023-05-31T02:51:26Z) - Multi-Modal Experience Inspired AI Creation [33.34566822058209]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。