論文の概要: JT-SAFE-V2: Safety-by-Design Foundation Model with World-Context Data
- arxiv url: http://arxiv.org/abs/2605.24414v1
- Date: Sat, 23 May 2026 05:57:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.042203
- Title: JT-SAFE-V2: Safety-by-Design Foundation Model with World-Context Data
- Title(参考訳): JT-SAFE-V2:世界コンテキストデータを用いた安全設計基礎モデル
- Authors: Junlan Feng, Fanyu Meng, Chong Long, Pengyu Cong, Duqing Wang, Yan Zheng, Yuyao Zhang, Xuanchang Gao, Ye Yuan, Yunfei Ma, Zhijie Ren, Fan Yang, Na Wu, Di Jin, Chao Deng,
- Abstract要約: JT-Safe-V2は,基礎モデルの安全性と信頼性を高めるために設計された大規模言語モデルである。
また,複数のモデルやエージェントを組織的に配置することで,トレース可能かつ効率的な推論を可能にするフレームワークであるSafe-MoMAを提案する。
- 参考スコア(独自算出の注目度): 53.59414720003988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce JT-Safe-V2, a large language model designed to advance the safety and trustworthiness of foundation models, extending our previous JT-Safe model toward a more comprehensive safety-by-design paradigm. JT-Safe-V2 emphasizes the joint optimization of general intelligence and safety-by-design through several key innovations: enriching pre-training data with contextual world knowledge, high-certainty pre-training procedures, and safety strengthening post-training mechanisms for enterprise-oriented agentic capabilities. Building on these safety-enhanced foundation models, we propose Safe-MoMA (Safe Mixture of Models and Agents), a framework that enables traceable and efficient inference through the orchestrated deployment of multiple models and agents. Extensive evaluations demonstrate that JT-Safe-V2 achieves state-of-the-art performance across both general intelligence and safety benchmarks. Moreover, Safe-MoMA reduces inference costs by more than 30\% compared to using the largest standalone model baseline while maintaining comparable performance. To facilitate future research on safety-by-design foundation models, we publicly release the post-trained JT-Safe-V2-35B model checkpoint.
- Abstract(参考訳): JT-Safe-V2は、基礎モデルの安全性と信頼性を高めるために設計された大規模な言語モデルであり、我々の以前のJT-Safeモデルはより包括的な安全設計パラダイムへと拡張されます。
JT-Safe-V2は、コンテキスト的世界知識による事前学習データの統合、高精度な事前学習手順、企業指向のエージェント機能のためのポストトレーニングメカニズムの安全性強化など、いくつかの重要なイノベーションを通じて、汎用インテリジェンスとセーフ・バイ・デザインの共同最適化を強調している。
セーフ・モマ(Safe-MoMA:Safe Mixture of Models and Agents)は、複数のモデルやエージェントを組織的に配置することで、トレーサブルで効率的な推論を可能にするフレームワークである。
JT-Safe-V2は、汎用インテリジェンスと安全ベンチマークの両方で最先端のパフォーマンスを達成している。
さらにSafe-MoMAは、最大のスタンドアロンモデルベースラインを使用する場合と比較して、推論コストを30%以上削減すると同時に、同等のパフォーマンスを維持している。
JT-Safe-V2-35B モデルチェックポイントを一般向けに公開する。
関連論文リスト
- Does Unification Come at a Cost? Uni-SafeBench: A Safety Benchmark for Unified Multimodal Large Models [15.702553632939102]
UMLM(Unified Multimodal Large Models)は、単一のアーキテクチャ内で理解と生成機能を統合する。
既存の安全ベンチマークは、主に独立した理解や生成タスクに焦点を当てている。
Uni-SafeBenchは、7つのタスクタイプにまたがる6つの主要な安全カテゴリの分類を特徴とする総合的なベンチマークである。
モデル安全性からコンテキスト安全性を効果的に分離するフレームワークであるUni-Judgerを開発した。
論文 参考訳(メタデータ) (2026-04-01T06:45:01Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law [91.33824439029533]
我々は,機能と安全性の共進化を示す最先端のマルチモーダル推論モデルであるSafeWork-R1を紹介する。
大規模でプログレッシブで安全指向の強化学習をポストトレーニングに取り入れたSafeLadderフレームワークを開発した。
さらに,SafeWork-R1-InternVL3-78B,SafeWork-R1-DeepSeek-70B,SafeWork-R1-Qwen2.5VL-7Bを開発した。
論文 参考訳(メタデータ) (2025-07-24T16:49:19Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。