論文の概要: JT-Safe: Intrinsically Enhancing the Safety and Trustworthiness of LLMs
- arxiv url: http://arxiv.org/abs/2510.17918v1
- Date: Mon, 20 Oct 2025 02:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.347611
- Title: JT-Safe: Intrinsically Enhancing the Safety and Trustworthiness of LLMs
- Title(参考訳): JT-Safe: LLMの安全性と信頼性を本質的に向上させる
- Authors: Junlan Feng, Fanyu Meng, Chong Long, Pengyu Cong, Duqing Wang, Yan Zheng, Yuyao Zhang, Xuanchang Gao, Ye Yuan, Yunfei Ma, Zhijie Ren, Fan Yang, Na Wu, Di Jin, Chao Deng,
- Abstract要約: 大規模な言語モデルの不安全と幻覚は、本質的には事前学習に由来すると広く合意されている。
データは広大なので、事実の誤り、論理的不整合、あるいは分布バイアスのデータを完全に浄化することはほとんど不可能です。
産業シナリオを反映した大量のデータ量を増やすことを目的として, プレトレーニングデータを世界規模で拡張する手法を提案する。
- 参考スコア(独自算出の注目度): 53.59414720003988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hallucination and credibility concerns of large language models (LLMs) are global challenges that the industry is collectively addressing. Recently, a significant amount of advances have been made on post-training and inference techniques to mitigate these challenges. However, it is widely agreed that unsafe and hallucinations of LLMs intrinsically originate from pre-training, involving pre-training data and the next-token prediction learning mechanism. In this paper, we focus on enhancing pre-training data to improve the trustworthiness and safety of LLMs. Since the data is vast, it's almost impossible to entirely purge the data of factual errors, logical inconsistencies, or distributional biases. Moreover, the pre-training data lack grounding in real-world knowledge. Each piece of data is treated as a sequence of tokens rather than as a representation of a part of the world. To overcome these issues, we propose approaches to enhancing our pre-training data with its context in the world and increasing a substantial amount of data reflecting industrial scenarios. We argue that most source data are created by the authors for specific purposes in a certain spatial-temporal context. They have played a role in the real world. By incorporating related world context information, we aim to better anchor pre-training data within real-world scenarios, thereby reducing uncertainty in model training and enhancing the model's safety and trustworthiness. We refer to our Data with World Context as DWC. We continue pre-training an earlier checkpoint of JT-35B-Base with 1.5 trillion of DWC tokens. We introduce our post-training procedures to activate the potentials of DWC. Compared with the Qwen model of a similar scale, JT-Safe-35B achieves an average performance improvement of 1.79% on the Safety and Trustworthy evaluation benchmarks, while being pretrained with only 6.2 trillion tokens.
- Abstract(参考訳): 大型言語モデル(LLM)の幻覚と信頼性に関する懸念は、業界が一括して取り組んでいるグローバルな課題である。
近年,これらの課題を緩和するために,ポストトレーニングと推論技術に多大な進歩が加えられている。
しかし,LLMの不安全と幻覚は,事前学習データと次点予測学習機構を含む,本質的な事前学習に由来することが広く認識されている。
本稿では,LLMの信頼性と安全性を向上させるために,事前学習データの改善に焦点をあてる。
データは広大なので、事実の誤り、論理的不整合、あるいは分布バイアスのデータを完全に浄化することはほとんど不可能です。
さらに、トレーニング前のデータは、現実世界の知識の基盤を欠いている。
データの各部分は、世界の一部の表現としてではなく、トークンのシーケンスとして扱われる。
これらの課題を克服するため、我々は、世界の文脈で事前学習データを強化し、産業シナリオを反映した膨大な量のデータを増やすためのアプローチを提案する。
情報源データの多くは、特定の空間的・時間的文脈において、特定の目的のために著者によって作成されていると論じる。
現実世界で活躍している。
関連する世界コンテキスト情報を組み込むことで、実世界のシナリオに事前学習データを定着させ、モデルトレーニングの不確実性を低減し、モデルの安全性と信頼性を高めることを目指す。
我々は、世界コンテキストのデータをDWCと呼ぶ。
我々は、1.5兆のDWCトークンを持つJT-35Bベースの初期チェックポイントの事前トレーニングを継続する。
DWCのポテンシャルを活性化するための訓練後手順を導入する。
同様のスケールのQwenモデルと比較すると、JT-Safe-35Bは6.2兆トークンしか事前訓練されていないが、Safety and Trustworthy評価ベンチマークで平均1.79%の性能向上を達成した。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - A Survey on Data Security in Large Language Models [12.23432845300652]
LLM(Large Language Models)は、自然言語処理、テキスト生成、機械翻訳、会話システムなどのパワーアプリケーションの基礎である。
トランスフォーメーションの可能性にもかかわらず、これらのモデルは本質的に大量のトレーニングデータに依存しており、しばしば多種多様な未処理ソースから収集され、深刻なデータセキュリティリスクにさらされる。
有害または悪意のあるデータは、モデル動作を妥協し、有害な出力、幻覚、即発注射やデータ中毒などの脅威に対する脆弱性などの問題を引き起こす。
本調査は、LLMが直面する主要なデータセキュリティリスクの概要と、敵を含む現在の防衛戦略のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-04T11:28:34Z) - Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文 参考訳(メタデータ) (2024-09-05T14:35:35Z) - Fed-Credit: Robust Federated Learning with Credibility Management [18.349127735378048]
Federated Learning(FL)は、分散デバイスやデータソースのモデルトレーニングを可能にする、新興の機械学習アプローチである。
我々は、Fed-Creditと呼ばれる信頼性管理手法に基づく堅牢なFLアプローチを提案する。
その結果、比較的低い計算複雑性を維持しながら、敵攻撃に対する精度とレジリエンスが向上した。
論文 参考訳(メタデータ) (2024-05-20T03:35:13Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。