Fugu-MT 論文翻訳(概要): TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information

論文の概要: TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information

arxiv url: http://arxiv.org/abs/2502.15714v1
Date: Sat, 25 Jan 2025 04:18:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-02 20:17:19.738865
Title: TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information
Title（参考訳）: TrustDataFilter:未知情報のより効果的なフィルタリングのための信頼された知識ベースデータの提供
Authors: Jinghong Zhang, Yidong Cui, Weiling Wang, Xianyou Cheng,
Abstract要約: Self-nli-TDFフレームワークは、信頼されたフィルタリングされた知識とフィルタリングされるデータを比較する。このフレームワークは信頼性評価にプラグイン・アンド・プレイの大きな言語モデルを使用し、推論にはRoBERTa-MNLIモデルを使用する。生物,放射線,科学の領域に3つのデータセットを構築し,RoBERTa,GPT3.5,およびローカルQwen2モデルを用いて実験を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the advancement of technology and changes in the market, the demand for the construction of domain-specific knowledge bases has been increasing, either to improve model performance or to promote enterprise innovation and competitiveness. The construction of domain-specific knowledge bases typically relies on web crawlers or existing industry databases, leading to problems with accuracy and consistency of the data. To address these challenges, we considered the characteristics of domain data, where internal knowledge is interconnected, and proposed the Self-Natural Language Inference Data Filtering (self-nli-TDF) framework. This framework compares trusted filtered knowledge with the data to be filtered, deducing the reasoning relationship between them, thus improving filtering performance. The framework uses plug-and-play large language models for trustworthiness assessment and employs the RoBERTa-MNLI model from the NLI domain for reasoning. We constructed three datasets in the domains of biology, radiation, and science, and conducted experiments using RoBERTa, GPT3.5, and the local Qwen2 model. The experimental results show that this framework improves filter quality, producing more consistent and reliable filtering results.
Abstract（参考訳）: 技術の進歩と市場の変化により、モデル性能の向上や企業革新の促進、競争力向上など、ドメイン固有の知識基盤の構築への需要が高まっている。ドメイン固有の知識ベースの構築は、典型的にはWebクローラや既存の業界データベースに依存し、データの正確性や一貫性に関する問題を引き起こす。これらの課題に対処するために、内部知識が相互接続されたドメインデータの特徴を考察し、セルフ・ナチュラル言語推論データフィルタリング(Self-Natural Language Inference Data Filtering,self-nli-TDF)フレームワークを提案する。このフレームワークは、信頼されたフィルタリング知識とフィルタリングされるデータを比較し、それら間の推論関係を推論し、フィルタリング性能を向上させる。このフレームワークは信頼度評価にプラグイン・アンド・プレイの大きな言語モデルを使用し、推論のためにNLIドメインのRoBERTa-MNLIモデルを使用している。生物,放射線,科学の領域に3つのデータセットを構築し,RoBERTa,GPT3.5,およびローカルQwen2モデルを用いて実験を行った。実験結果から, このフレームワークはフィルタ品質を向上し, より一貫性があり, 信頼性の高いフィルタ結果が得られることがわかった。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Evontree: Ontology Rule-Guided Self-Evolution of Large Language Models [12.36467850170776]
Evontreeは、大規模言語モデル(LLM)内のドメイン知識を抽出、検証、拡張するために、少数の高品質なルールを利用する新しいフレームワークである。 Llama3-8B-InstructとMed42-v2による医学QAベンチマークの実験は、修正されていないモデルと教師付きベースラインの両方に対して一貫した性能を示した。
論文参考訳（メタデータ） (2025-10-30T16:53:45Z)
Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation [18.99847259801634]
本稿では,RLAG(Reinforcement Learning from Augmented Generation)を提案し,ドメイン知識を大規模言語モデルに組み込む。提案手法は, サンプリング世代間を反復的に循環し, 計算した報酬によってモデルを最適化する。医学、法学、天文学、および現在のイベントデータセットにわたる実験結果から、提案手法がベースラインアプローチを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-09-24T14:30:16Z)
Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。 DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文参考訳（メタデータ） (2025-05-27T08:21:21Z)
AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science [31.08682306627942]
AssistedDSは、大規模言語モデルがドメイン知識をどのように扱うかを評価するために設計されたベンチマークである。我々は、最先端のLLMを、有害なドメイン知識を識別し、有効に適用する能力に基づいて評価する。我々の結果は、専門家の知識を批判的に評価し活用する現在のモデルの能力に、かなりのギャップがあることを示します。
論文参考訳（メタデータ） (2025-05-25T05:50:21Z)
Structural Entropy Guided Agent for Detecting and Repairing Knowledge Deficiencies in LLMs [11.724887822269528]
大規模言語モデル(LLM)は、膨大な事前学習コーパスを活用することで、前例のない性能を達成した。彼らの業績は、医学や科学研究のような知識集約的な領域において、依然として最適以下である。本稿では,LLMの内在的知識不足に対処する構造エントロピー誘導型知識ナビゲータ(SENATOR)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-12T02:21:36Z)
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。 FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文参考訳（メタデータ） (2025-04-27T04:26:02Z)
TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文参考訳（メタデータ） (2025-04-14T05:44:11Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Personalized Federated Fine-Tuning for LLMs via Data-Driven Heterogeneous Model Architectures [15.645254436094055]
フェデレートラーニング(FL)は、データ共有なしで大規模言語モデルの協調的な微調整を可能にする。データ駆動の異種モデルアーキテクチャを実現する軽量なパーソナライズFLフレームワークであるFedAMoLEを提案する。実験によると、FedAMoLEは既存の手法に比べて平均5.14%精度が向上している。
論文参考訳（メタデータ） (2024-11-28T13:20:38Z)
Model-Based Privacy-Preserving Knowledge Transfer for Large Language Models [34.949731264918846]
Llamdexは大規模言語モデル(LLM)を強化するフレームワークで、ドメイン固有のデータに基づいてトレーニングされたモデルのみを使用する。提案手法は,ドメイン固有のタスクの精度を大幅に向上し,最大26%の精度向上を実現する。
論文参考訳（メタデータ） (2024-10-14T13:18:20Z)
Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文参考訳（メタデータ） (2024-05-28T11:30:19Z)
An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文参考訳（メタデータ） (2024-04-29T05:55:23Z)
Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文参考訳（メタデータ） (2024-03-07T14:28:04Z)
Fake It Till Make It: Federated Learning with Consensus-Oriented Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。 FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2023-12-10T18:49:59Z)
Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文参考訳（メタデータ） (2023-12-10T07:38:56Z)
A Tale of Two Cities: Data and Configuration Variances in Robust Deep Learning [27.498927971861068]
ディープニューラルネットワーク(DNN)は、画像認識、サプライチェーン、診断、自律運転など、多くの産業で広く利用されている。これまでの研究では、入力データと外部環境が常に変化しているため、DNNモデルの高精度さは、高いロバスト性を示すものではなかった。
論文参考訳（メタデータ） (2022-11-18T03:32:53Z)
Uncovering Main Causalities for Long-tailed Information Extraction [14.39860866665021]
データセットの選択バイアスによって引き起こされる長い尾の分布は、誤った相関をもたらす可能性がある。これは、データの背後にある主な因果関係を明らかにすることを目的とした、新しいフレームワークである。
論文参考訳（メタデータ） (2021-09-11T08:08:24Z)
Neural Production Systems [90.75211413357577]
視覚環境は、異なるオブジェクトまたはエンティティから構成される。イメージをエンティティに分割するために、ディープラーニング研究者は構造的誘導バイアスを提案した。私たちは認知科学からインスピレーションを得て、一連のルールテンプレートからなる古典的なアプローチを復活させます。このアーキテクチャは柔軟でダイナミックな制御フローを実現し、エンティティ固有およびルールベースの情報を分解するのに役立つ。
論文参考訳（メタデータ） (2021-03-02T18:53:20Z)
Synthesizing Property & Casualty Ratemaking Datasets using Generative Adversarial Networks [2.2649197740853677]
秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。 MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
論文参考訳（メタデータ） (2020-08-13T21:02:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。