論文の概要: TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information
- arxiv url: http://arxiv.org/abs/2502.15714v1
- Date: Sat, 25 Jan 2025 04:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 20:17:19.738865
- Title: TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information
- Title(参考訳): TrustDataFilter:未知情報のより効果的なフィルタリングのための信頼された知識ベースデータの提供
- Authors: Jinghong Zhang, Yidong Cui, Weiling Wang, Xianyou Cheng,
- Abstract要約: Self-nli-TDFフレームワークは、信頼されたフィルタリングされた知識とフィルタリングされるデータを比較する。
このフレームワークは信頼性評価にプラグイン・アンド・プレイの大きな言語モデルを使用し、推論にはRoBERTa-MNLIモデルを使用する。
生物,放射線,科学の領域に3つのデータセットを構築し,RoBERTa,GPT3.5,およびローカルQwen2モデルを用いて実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advancement of technology and changes in the market, the demand for the construction of domain-specific knowledge bases has been increasing, either to improve model performance or to promote enterprise innovation and competitiveness. The construction of domain-specific knowledge bases typically relies on web crawlers or existing industry databases, leading to problems with accuracy and consistency of the data. To address these challenges, we considered the characteristics of domain data, where internal knowledge is interconnected, and proposed the Self-Natural Language Inference Data Filtering (self-nli-TDF) framework. This framework compares trusted filtered knowledge with the data to be filtered, deducing the reasoning relationship between them, thus improving filtering performance. The framework uses plug-and-play large language models for trustworthiness assessment and employs the RoBERTa-MNLI model from the NLI domain for reasoning. We constructed three datasets in the domains of biology, radiation, and science, and conducted experiments using RoBERTa, GPT3.5, and the local Qwen2 model. The experimental results show that this framework improves filter quality, producing more consistent and reliable filtering results.
- Abstract(参考訳): 技術の進歩と市場の変化により、モデル性能の向上や企業革新の促進、競争力向上など、ドメイン固有の知識基盤の構築への需要が高まっている。
ドメイン固有の知識ベースの構築は、典型的にはWebクローラや既存の業界データベースに依存し、データの正確性や一貫性に関する問題を引き起こす。
これらの課題に対処するために、内部知識が相互接続されたドメインデータの特徴を考察し、セルフ・ナチュラル言語推論データフィルタリング(Self-Natural Language Inference Data Filtering,self-nli-TDF)フレームワークを提案する。
このフレームワークは、信頼されたフィルタリング知識とフィルタリングされるデータを比較し、それら間の推論関係を推論し、フィルタリング性能を向上させる。
このフレームワークは信頼度評価にプラグイン・アンド・プレイの大きな言語モデルを使用し、推論のためにNLIドメインのRoBERTa-MNLIモデルを使用している。
生物,放射線,科学の領域に3つのデータセットを構築し,RoBERTa,GPT3.5,およびローカルQwen2モデルを用いて実験を行った。
実験結果から, このフレームワークはフィルタ品質を向上し, より一貫性があり, 信頼性の高いフィルタ結果が得られることがわかった。
関連論文リスト
- Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。
このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。
この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文 参考訳(メタデータ) (2025-04-14T05:44:11Z) - OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。
私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文 参考訳(メタデータ) (2025-04-02T17:50:31Z) - Personalized Federated Fine-Tuning for LLMs via Data-Driven Heterogeneous Model Architectures [15.645254436094055]
フェデレートラーニング(FL)は、データ共有なしで大規模言語モデルの協調的な微調整を可能にする。
データ駆動の異種モデルアーキテクチャを実現する軽量なパーソナライズFLフレームワークであるFedAMoLEを提案する。
実験によると、FedAMoLEは既存の手法に比べて平均5.14%精度が向上している。
論文 参考訳(メタデータ) (2024-11-28T13:20:38Z) - Model-Based Privacy-Preserving Knowledge Transfer for Large Language Models [34.949731264918846]
Llamdexは大規模言語モデル(LLM)を強化するフレームワークで、ドメイン固有のデータに基づいてトレーニングされたモデルのみを使用する。
提案手法は,ドメイン固有のタスクの精度を大幅に向上し,最大26%の精度向上を実現する。
論文 参考訳(メタデータ) (2024-10-14T13:18:20Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。
従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。
我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文 参考訳(メタデータ) (2024-04-29T05:55:23Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - A Tale of Two Cities: Data and Configuration Variances in Robust Deep
Learning [27.498927971861068]
ディープニューラルネットワーク(DNN)は、画像認識、サプライチェーン、診断、自律運転など、多くの産業で広く利用されている。
これまでの研究では、入力データと外部環境が常に変化しているため、DNNモデルの高精度さは、高いロバスト性を示すものではなかった。
論文 参考訳(メタデータ) (2022-11-18T03:32:53Z) - Uncovering Main Causalities for Long-tailed Information Extraction [14.39860866665021]
データセットの選択バイアスによって引き起こされる長い尾の分布は、誤った相関をもたらす可能性がある。
これは、データの背後にある主な因果関係を明らかにすることを目的とした、新しいフレームワークである。
論文 参考訳(メタデータ) (2021-09-11T08:08:24Z) - Neural Production Systems [90.75211413357577]
視覚環境は、異なるオブジェクトまたはエンティティから構成される。
イメージをエンティティに分割するために、ディープラーニング研究者は構造的誘導バイアスを提案した。
私たちは認知科学からインスピレーションを得て、一連のルールテンプレートからなる古典的なアプローチを復活させます。
このアーキテクチャは柔軟でダイナミックな制御フローを実現し、エンティティ固有およびルールベースの情報を分解するのに役立つ。
論文 参考訳(メタデータ) (2021-03-02T18:53:20Z) - Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文 参考訳(メタデータ) (2020-08-13T21:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。