論文の概要: TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information
- arxiv url: http://arxiv.org/abs/2502.15714v1
- Date: Sat, 25 Jan 2025 04:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 04:52:16.737983
- Title: TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information
- Title(参考訳): TrustDataFilter:未知情報のより効果的なフィルタリングのための信頼された知識ベースデータの提供
- Authors: Jinghong Zhang, Yidong Cui, Weiling Wang, Xianyou Cheng,
- Abstract要約: Self-nli-TDFフレームワークは、信頼されたフィルタリングされた知識とフィルタリングされるデータを比較する。
このフレームワークは信頼性評価にプラグイン・アンド・プレイの大きな言語モデルを使用し、推論にはRoBERTa-MNLIモデルを使用する。
生物,放射線,科学の領域に3つのデータセットを構築し,RoBERTa,GPT3.5,およびローカルQwen2モデルを用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the advancement of technology and changes in the market, the demand for the construction of domain-specific knowledge bases has been increasing, either to improve model performance or to promote enterprise innovation and competitiveness. The construction of domain-specific knowledge bases typically relies on web crawlers or existing industry databases, leading to problems with accuracy and consistency of the data. To address these challenges, we considered the characteristics of domain data, where internal knowledge is interconnected, and proposed the Self-Natural Language Inference Data Filtering (self-nli-TDF) framework. This framework compares trusted filtered knowledge with the data to be filtered, deducing the reasoning relationship between them, thus improving filtering performance. The framework uses plug-and-play large language models for trustworthiness assessment and employs the RoBERTa-MNLI model from the NLI domain for reasoning. We constructed three datasets in the domains of biology, radiation, and science, and conducted experiments using RoBERTa, GPT3.5, and the local Qwen2 model. The experimental results show that this framework improves filter quality, producing more consistent and reliable filtering results.
- Abstract(参考訳): 技術の進歩と市場の変化により、モデル性能の向上や企業革新の促進、競争力向上など、ドメイン固有の知識基盤の構築への需要が高まっている。
ドメイン固有の知識ベースの構築は、典型的にはWebクローラや既存の業界データベースに依存し、データの正確性や一貫性に関する問題を引き起こす。
これらの課題に対処するために、内部知識が相互接続されたドメインデータの特徴を考察し、セルフ・ナチュラル言語推論データフィルタリング(Self-Natural Language Inference Data Filtering,self-nli-TDF)フレームワークを提案する。
このフレームワークは、信頼されたフィルタリング知識とフィルタリングされるデータを比較し、それら間の推論関係を推論し、フィルタリング性能を向上させる。
このフレームワークは信頼度評価にプラグイン・アンド・プレイの大きな言語モデルを使用し、推論のためにNLIドメインのRoBERTa-MNLIモデルを使用している。
生物,放射線,科学の領域に3つのデータセットを構築し,RoBERTa,GPT3.5,およびローカルQwen2モデルを用いて実験を行った。
実験結果から, このフレームワークはフィルタ品質を向上し, より一貫性があり, 信頼性の高いフィルタ結果が得られることがわかった。
関連論文リスト
- Domain Specific Data Distillation and Multi-modal Embedding Generation [0.0]
ドメイン中心の埋め込みを作成するという課題は、非構造化データの豊富さとドメイン固有の構造化データの不足から生じる。
本稿では,非構造化データからノイズをフィルタリングするために構造化データを活用する新しいモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:47:46Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。
従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。
我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文 参考訳(メタデータ) (2024-04-29T05:55:23Z) - VFLGAN: Vertical Federated Learning-based Generative Adversarial Network for Vertically Partitioned Data Publication [16.055684281505474]
本稿では,垂直分割型データパブリッシングのための垂直フェデレート学習に基づく生成広告ネットワーク,VFLGANを提案する。
VFLGANが生成した合成データセットの品質は、VertiGANが生成したデータセットの3.2倍である。
また,合成データセットによるプライバシー漏洩を推定するために,会員推定攻撃を適用した実践的な監査手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T12:25:41Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - A Tale of Two Cities: Data and Configuration Variances in Robust Deep
Learning [27.498927971861068]
ディープニューラルネットワーク(DNN)は、画像認識、サプライチェーン、診断、自律運転など、多くの産業で広く利用されている。
これまでの研究では、入力データと外部環境が常に変化しているため、DNNモデルの高精度さは、高いロバスト性を示すものではなかった。
論文 参考訳(メタデータ) (2022-11-18T03:32:53Z) - Uncovering Main Causalities for Long-tailed Information Extraction [14.39860866665021]
データセットの選択バイアスによって引き起こされる長い尾の分布は、誤った相関をもたらす可能性がある。
これは、データの背後にある主な因果関係を明らかにすることを目的とした、新しいフレームワークである。
論文 参考訳(メタデータ) (2021-09-11T08:08:24Z) - Neural Production Systems [90.75211413357577]
視覚環境は、異なるオブジェクトまたはエンティティから構成される。
イメージをエンティティに分割するために、ディープラーニング研究者は構造的誘導バイアスを提案した。
私たちは認知科学からインスピレーションを得て、一連のルールテンプレートからなる古典的なアプローチを復活させます。
このアーキテクチャは柔軟でダイナミックな制御フローを実現し、エンティティ固有およびルールベースの情報を分解するのに役立つ。
論文 参考訳(メタデータ) (2021-03-02T18:53:20Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。