論文の概要: Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2604.17794v1
- Date: Mon, 20 Apr 2026 04:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.690888
- Title: Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling
- Title(参考訳): テスト時間スケーリングによるベトナムにおける推論ギャップの小さな言語モデルによるブリッジング
- Authors: Bui The Trung, Do Minh Duc, Nguyen Van Vinh, Bui Nguyen Quoc Trinh,
- Abstract要約: 本稿ではベトナムの初等数学の文脈におけるQwen3-1.7Bアーキテクチャのテスト時間スケーリング戦略について検討する。
本稿では,Gemini 2.5 Flash-Lite 駆動パイプラインを介してローカライズされた高忠実性推論データセット Vi-S1K と,厳密な評価のためのデュアルリソースベンチマーク Vi-Bench を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The democratization of ubiquitous AI hinges on deploying sophisticated reasoning capabilities on resource-constrained devices. However, Small Language Models (SLMs) often face a "reasoning gap", particularly in non-English languages like Vietnamese, where they struggle to maintain coherent chains of thought. This paper investigates Test-Time Scaling strategies for the Qwen3-1.7B architecture within the context of Vietnamese Elementary Mathematics. We introduce Vi-S1K, a high-fidelity reasoning dataset localized via a Gemini 2.5 Flash-Lite powered pipeline, and Vi-Elementary-Bench, a dual-resource benchmark for rigorous evaluation. Using an LLM-as-a-Judge protocol, we reveal that the base model possesses robust latent knowledge (Accuracy: 4.05/5.00) but suffers from a severe "formatting gap" in communication. Supervised Fine-Tuning (SFT) acts as a critical "reasoning unlocker", yielding a 77% improvement in Explanation Quality and bridging the gap between raw calculation and pedagogical coherence. Furthermore, our analysis of prompting strategies uncovers a significant trade-off: structured frameworks like ReAct impose a "cognitive tax" on the 1.7B parameter capacity, degrading performance relative to pure Chain-of-Thought (CoT) combined with Self-Consistency. These findings establish a deployment hierarchy for SLMs, demonstrating that SFT combined with simplified test-time scaling is superior to complex agentic workflows for edge-based reasoning.
- Abstract(参考訳): ユビキタスAIの民主化は、リソースに制約のあるデバイスに洗練された推論機能をデプロイすることに重点を置いている。
しかしながら、スモール・ランゲージ・モデル(SLM)は、特にベトナムのような非英語の言語では、一貫性のある思考の連鎖を維持するのに苦戦する「合理的なギャップ」に直面していることが多い。
本稿ではベトナムの初等数学の文脈におけるQwen3-1.7Bアーキテクチャのテスト時間スケーリング戦略について検討する。
本稿では,Gemini 2.5 Flash-Lite パイプラインを介してローカライズされた高忠実性推論データセット Vi-S1K と,厳密な評価のためのデュアルリソースベンチマーク Vi-Elementary-Bench を紹介する。
LLM-as-a-Judgeプロトコルを用いて、ベースモデルが堅牢な潜伏知識(精度: 4.05/5.00)を持つが、通信における深刻な「フォーマッティングギャップ」に悩まされていることを明らかにした。
Supervised Fine-Tuning (SFT) は重要な「推論アンロック」として機能し、説明品質を77%向上させ、生の計算と教育的コヒーレンスの間のギャップを埋める。
ReActのような構造化されたフレームワークは、1.7Bパラメータの容量に「認知税」を課し、CoT(Chain-of-Thought)と自己整合性(Self-Consistency)を合わせたパフォーマンスを低下させます。
これらの結果は、SLMのデプロイメント階層を確立し、SFTと簡易なテスト時間スケーリングの組み合わせは、エッジベースの推論のための複雑なエージェントワークフローよりも優れていることを示す。
関連論文リスト
- Mi:dm K 2.5 Pro [0.0]
Mi:dm K 2.5 Proはエンタープライズグレードの複雑さに対応するために設計されたフラッグシップLDMです。
我々の方法論は、品質中心のキュレーションパイプラインを通じて堅牢なデータ基盤を構築します。
Mi:dm K 2.5 Proは、主要なグローバルモデルと国内モデルとの競争性能を達成する。
論文 参考訳(メタデータ) (2026-03-19T11:37:06Z) - MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis [5.1150258716324055]
マルチモーダル感情分析は、テキスト、聴覚、視覚のモダリティを統合することで人間の感情を理解することを目的としている。
CoT(Chain-of-Thought)推論を取り入れた既存の手法は、高いアノテーションコストによって妨げられる。
本研究では,Hintに基づく強化学習と構造化識別校正(DC)推論を統合した新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T12:48:41Z) - HE-SNR: Uncovering Latent Logic via Entropy for Guiding Mid-Training on SWE-BENCH [11.643006508214887]
SWE-benchは、複雑なソフトウェアエンジニアリングタスクで大規模言語モデルを評価するための主要なベンチマークとして登場した。
Perplexity(PPL)のような標準メトリクスは、"Long-Context Tax"によって妥協され、下流SWEのパフォーマンスと弱い相関を示す。
提案するエントロピー圧縮仮説は,スカラートップ1圧縮ではなく,エントロピー圧縮状態に不確実性を構築する能力によって,インテリジェンスを再定義するものである。
論文 参考訳(メタデータ) (2026-01-28T05:03:24Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs [0.08594140167290097]
大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。
このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-29T04:47:14Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。