論文の概要: X-Intelligence 3.0: Training and Evaluating Reasoning LLM for Semiconductor Display
- arxiv url: http://arxiv.org/abs/2507.14430v1
- Date: Sat, 19 Jul 2025 01:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.885229
- Title: X-Intelligence 3.0: Training and Evaluating Reasoning LLM for Semiconductor Display
- Title(参考訳): X-Intelligence 3.0:半導体ディスプレイ用リ共振LDMの訓練と評価
- Authors: Xiaolin Yan, Yangxing Liu, Jiazhang Zheng, Chi Liu, Mingyu Du, Caisheng Chen, Haoyang Liu, Ming Ding, Yuan Li, Qiuping Liao, Linfeng Li, Zhili Mei, Siyu Wan, Li Li, Ruyi Zhong, Jiangling Yu, Xule Liu, Huihui Hu, Jiameng Yue, Ruohui Cheng, Qi Yang, Liangqing Wu, Ke Zhu, Chi Zhang, Chufei Jing, Yifan Zhou, Yan Liang, Dongdong Li, Zhaohui Wang, Bin Zhao, Mingzhou Wu, Mingzhong Zhou, Peng Du, Zuomin Liao, Chao Dai, Pengfei Liang, Xiaoguang Zhu, Yu Zhang, Yu Gu, Kun Pan, Yuan Wu, Yanqing Guan, Shaojing Wu, Zikang Feng, Xianze Ma, Peishan Cheng, Wenjuan Jiang, Jing Ba, Huihao Yu, Zeping Hu, Yuan Xu, Zhiwei Liu, He Wang, Zhenguo Lin, Ming Liu, Yanhong Meng,
- Abstract要約: 我々は半導体ディスプレイ産業向けに開発された最初の高性能推論モデルであるX-Intelligence 3.0を提案する。
このモデルは、業界の複雑な課題に対する専門家レベルの理解と推論を提供するように設計されています。
比較的コンパクトな32億のパラメータにもかかわらず、X-Intelligence 3.0は複数の評価でSOTA DeepSeek-R1-671Bを上回っている。
- 参考スコア(独自算出の注目度): 46.39122434226915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently achieved significant advances in reasoning and demonstrated their advantages in solving challenging problems. Yet, their effectiveness in the semiconductor display industry remains limited due to a lack of domain-specific training and expertise. To bridge this gap, we present X-Intelligence 3.0, the first high-performance reasoning model specifically developed for the semiconductor display industry. This model is designed to deliver expert-level understanding and reasoning for the industry's complex challenges. Leveraging a carefully curated industry knowledge base, the model undergoes supervised fine-tuning and reinforcement learning to enhance its reasoning and comprehension capabilities. To further accelerate development, we implemented an automated evaluation framework that simulates expert-level assessments. We also integrated a domain-specific retrieval-augmented generation (RAG) mechanism, resulting in notable performance gains on benchmark datasets. Despite its relatively compact size of 32 billion parameters, X-Intelligence 3.0 outperforms SOTA DeepSeek-R1-671B across multiple evaluations. This demonstrates its exceptional efficiency and establishes it as a powerful solution to the longstanding reasoning challenges faced by the semiconductor display industry.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,推論において大きな進歩を遂げ,課題解決におけるそのメリットを実証している。
しかし、半導体ディスプレイ業界におけるそれらの効果は、ドメイン固有のトレーニングや専門知識が不足しているため、依然として制限されている。
このギャップを埋めるために,半導体ディスプレイ産業向けに開発された最初の高性能推論モデルであるX-Intelligence 3.0を提案する。
このモデルは、業界の複雑な課題に対する専門家レベルの理解と推論を提供するように設計されています。
注意深く訓練された産業知識ベースを活用することで、モデルはその推論と理解能力を高めるために微調整と強化学習を監督する。
さらに開発を加速するため,専門家レベルの評価をシミュレートする自動評価フレームワークを実装した。
また、ドメイン固有の検索拡張生成(RAG)機構を統合し、ベンチマークデータセットで顕著な性能向上を実現した。
比較的コンパクトな32億のパラメータにもかかわらず、X-Intelligence 3.0は複数の評価でSOTA DeepSeek-R1-671Bを上回っている。
これは、半導体ディスプレイ産業が直面する長年の推論課題に対する強力な解決策として、その例外的な効率を証明している。
関連論文リスト
- NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach [15.960271016276447]
8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。
DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。
アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
論文 参考訳(メタデータ) (2025-03-13T17:23:45Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach [2.0209172586699173]
本稿では,新しいXAI統合視覚品質検査フレームワークを提案する。
我々のフレームワークはXAIとLarge Vision Language Modelを組み込んで人間中心の解釈可能性を提供する。
このアプローチは、重要な産業アプリケーションに信頼性と解釈可能なAIツールを広く採用する道を開くものだ。
論文 参考訳(メタデータ) (2024-07-16T14:30:24Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - An Empirical Study of Training State-of-the-Art LiDAR Segmentation Models [25.28234439927537]
MMDetection3D-lidarsegは、最先端LiDARセグメンテーションモデルの効率的なトレーニングと評価のための包括的なツールボックスである。
我々は、幅広いセグメンテーションモデルをサポートし、堅牢性と効率を高めるために高度なデータ拡張技術を統合する。
統一されたフレームワークを育むことで、MMDetection3D-lidarsegは開発とベンチマークを合理化し、研究とアプリケーションのための新しい標準を設定します。
論文 参考訳(メタデータ) (2024-05-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。