論文の概要: AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework
- arxiv url: http://arxiv.org/abs/2406.13947v1
- Date: Thu, 20 Jun 2024 02:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 17:36:50.143674
- Title: AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework
- Title(参考訳): AspirinSum: アスペクトベースのユーティリティ保存脱識別フレームワーク
- Authors: Ya-Lun Li,
- Abstract要約: この提案の目的は、特定のドメインに容易に適応できるテキスト識別フレームワークを開発することである。
本稿では,既存のコメントデータから専門家の側面を整合させることで,アスペクトベースの実用性保護型非識別要約フレームワークAspirinSumを提案する。
特定されていないテキストはデータパブリッシングに使用でき、最終的にはダウンストリームタスク用に識別されていないデータセットを公開します。
- 参考スコア(独自算出の注目度): 1.9489823192518083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid advancement of Large Language Model (LLM), the whole community eagerly consumes any available text data in order to train the LLM. Currently, large portion of the available text data are collected from internet, which has been thought as a cheap source of the training data. However, when people try to extend the LLM's capability to the personal related domain, such as healthcare or education, the lack of public dataset in these domains make the adaption of the LLM in such domains much slower. The reason of lacking public available dataset in such domains is because they usually contain personal sensitive information. In order to comply with privacy law, the data in such domains need to be de-identified before any kind of dissemination. It had been much research tried to address this problem for the image or tabular data. However, there was limited research on the efficient and general de-identification method for text data. Most of the method based on human annotation or predefined category list. It usually can not be easily adapted to specific domains. The goal of this proposal is to develop a text de-identification framework, which can be easily adapted to the specific domain, leverage the existing expert knowledge without further human annotation. We propose an aspect-based utility-preserved de-identification summarization framework, AspirinSum, by learning to align expert's aspect from existing comment data, it can efficiently summarize the personal sensitive document by extracting personal sensitive aspect related sub-sentence and de-identify it by substituting it with similar aspect sub-sentence. We envision that the de-identified text can then be used in data publishing, eventually publishing our de-identified dataset for downstream task use.
- Abstract(参考訳): LLM(Large Language Model)の急速な進歩により、コミュニティ全体がLLMをトレーニングするために利用可能なテキストデータを熱心に消費している。
現在、利用可能なテキストデータの大部分はインターネットから収集されており、トレーニングデータの安価な情報源と考えられている。
しかし、医療や教育などの個人関連領域にLLMの能力を拡張しようとすると、これらの領域におけるパブリックデータセットの欠如により、そのような領域におけるLLMの適応がはるかに遅くなる。
このようなドメインで公開データセットが欠落している理由は、通常、個人機密情報を含んでいるためである。
プライバシー法に従うためには、そのようなドメイン内のデータは、何らかの普及前に識別される必要がある。
画像や表のデータに関して、この問題に対処するための多くの研究がなされてきた。
しかし、テキストデータの効率的かつ汎用的な識別方法について限定的な研究がなされた。
人間のアノテーションや定義済みのカテゴリリストに基づく手法がほとんどである。
通常、特定のドメインに容易に適応できない。
この提案の目的は、特定のドメインに容易に適応できるテキスト識別フレームワークを開発することであり、さらに人間のアノテーションを使わずに既存の専門家の知識を活用することである。
本稿では,従来のコメントデータから専門家の側面を整合させることで,アスペクトベースの実用性保存型非識別要約フレームワークであるAspirinSumを提案する。
特定されていないテキストはデータパブリッシングに使用でき、最終的にはダウンストリームタスク用に識別されていないデータセットを公開します。
関連論文リスト
- From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification [4.400729890122927]
テキストベースのRe-IDの目的は、属性や自然言語の記述を精査することで、特定の歩行者を認識することである。
技術的観点からは、テキストベースの人物であるRe-IDを要約する包括的なレビューが欠落している。
本稿では,評価,戦略,アーキテクチャ,最適化の分野にまたがる分類を導入し,テキストベースの人物Re-IDタスクの総合的な調査を行う。
論文 参考訳(メタデータ) (2024-07-31T18:16:18Z) - UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity [50.91030850662369]
既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2023-12-06T11:50:14Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - DSSL: Deep Surroundings-person Separation Learning for Text-based Person
Retrieval [40.70100506088116]
本稿では,Deep Surroundings-person Separation Learning(DSSL)モデルを提案する。
周囲の分離・融合機構は、正確かつ効果的な周囲の分離を実現する上で重要な役割を担っている。
CUHK-PEDES上で提案したDSSLの評価実験を行った。
論文 参考訳(メタデータ) (2021-09-12T15:09:09Z) - De-identification of Privacy-related Entities in Job Postings [10.751883216434717]
身元特定は、人物名、電子メール、連絡先データなどのプライバシー関連エンティティをテキストで検出するタスクである。
JobStackは、Stackoverflow上のジョブの空白における個人データの非特定のための新しいコーパスである。
論文 参考訳(メタデータ) (2021-05-24T12:01:22Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z) - CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web
to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。
このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。
本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文 参考訳(メタデータ) (2020-11-03T09:10:48Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。