論文の概要: Data Trajectory Alignment for LLM Domain Adaptation: A Two-Phase Synthesis Framework for Telecommunications Mathematics
- arxiv url: http://arxiv.org/abs/2511.06776v1
- Date: Mon, 10 Nov 2025 07:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.125454
- Title: Data Trajectory Alignment for LLM Domain Adaptation: A Two-Phase Synthesis Framework for Telecommunications Mathematics
- Title(参考訳): LLM領域適応のためのデータトラジェクトリアライメント:電気通信数学のための2相合成フレームワーク
- Authors: Zhicheng Zhou, Jing Li, Suming Qiu, Junjie Huang, Linyuan Qiu, Zhijie Sun,
- Abstract要約: 汎用大規模言語モデル (LLMs) は、電気通信のような垂直に展開されることが増えている。
本稿では2相モデルに依存しないデータキュレーションフレームワークであるData Trajectory Alignment (DTA)を提案する。
DTAはソリューションプロセス(最終回答だけでなく)を第一級の監督として扱います。
- 参考スコア(独自算出の注目度): 6.653834890554154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: General-purpose large language models (LLMs) are increasingly deployed in verticals such as telecommunications, where adaptation is hindered by scarce, low-information-density corpora and tight mobile/edge constraints. We propose Data Trajectory Alignment (DTA), a two-phase, model-agnostic data curation framework that treats solution processes - not only final answers - as first-class supervision. Phase I (Initializing) synthesizes diverse, high-coverage candidates using an ensemble of strong teachers. Phase II (DTA) rewrites teacher solutions to align intermediate steps and presentation style with the target student's inductive biases and then performs signal-aware exemplar selection via agreement checks and reflection-based judging. Instantiated on telecommunications mathematics (e.g., link budgets, SNR/AMC selection, and power-control feasibility), DTA yields state-of-the-art (SOTA) accuracy on TELEMATH without enabling explicit "thinking" modes: 72.45% pass@1, surpassing distilled-only training by +17.65 points and outperforming a strong baseline (Qwen3-32B with thinking enabled) by +2.94 points. Token-shift analyses indicate that DTA concentrates gains on logical-structural discourse markers rather than merely amplifying domain nouns, indicating improved reasoning scaffolding. Under edge-like inference settings, DTA improves efficiency by reducing reliance on multi-sample voting and disabling expensive reasoning heuristics, cutting energy per output token by ~42% versus Qwen3-32B (thinking mode enabled) and end-to-end latency by ~60% versus Qwen3-32B (thinking mode disabled). These results demonstrate that aligning how solutions are produced enables compact, high-yield supervision that is effective for both accuracy and efficiency, offering a practical recipe for domain adaptation in low-resource verticals beyond telecom.
- Abstract(参考訳): 汎用大規模言語モデル (LLMs) は電気通信など,少ない情報密度のコーパスや厳密なモバイル/エッジ制約によって適応が妨げられる分野において,ますます普及している。
最終回答だけでなく、ソリューションプロセスを扱う2段階のモデルに依存しないデータキュレーションフレームワークであるData Trajectory Alignment (DTA) を第一級監督機関として提案する。
第一段階(初期化)は、強力な教師のアンサンブルを用いて多種多様な高包括的候補者を合成する。
フェーズII(DTA)は、教師ソリューションを書き換えて、中間ステップとプレゼンテーションスタイルを対象の学生の帰納バイアスに合わせる。
電気通信数学(例えば、リンク予算、SNR/AMC選択、パワーコントロール実現可能性)に基づいて、DTAはTELEMATHの最先端(SOTA)の精度を、明示的な「思考」モードを許さずに得る: 72.45% pass@1、蒸留専用トレーニングを+17.65ポイント超過し、+2.94ポイントの強いベースライン(Qwen3-32B、思考可能)を上回る。
Token-shift Analysisによると、DTAは単にドメイン名詞を増幅するだけでなく、論理構造的談話マーカーに集中し、推論の足場の改善を示す。
エッジライクな推論設定の下では、DTAはマルチサンプル投票への依存を減らし、高価な推論ヒューリスティックを無効にすることで効率を向上し、出力トークン当たりのエネルギーを ~42% 削減し、Qwen3-32B (モード有効) に対して Qwen3-32B (モード無効) に対して ~60% 削減し、エンドツーエンドのレイテンシを Qwen3-32B (モード無効) に対して ~60% 削減する。
これらの結果から, 提案手法の整合性は, 精度と効率性の両方に有効なコンパクトで高収率な監視を可能にし, テレコム以外の低リソースの領域適応の実践的レシピを提供する。
関連論文リスト
- Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning [22.177866778776814]
本稿では,高レベルプランニングときめ細かいCoT推論の両方を改善するために設計された2段階のフレームワークを提案する。
第1段階では,高度なLCMを用いてCoTを蒸留して高レベル誘導を行い,それを教師付き微調整に用いる。
第2段階では、最終出力と高レベルガイダンスの品質を協調的に最適化するガイダンス対応RL手法を導入する。
論文 参考訳(メタデータ) (2025-10-02T09:28:13Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Contrastive Learning and Cycle Consistency-based Transductive Transfer
Learning for Target Annotation [11.883617702526193]
本稿では,FIDスコアが大幅に低いH-CUT(Hybrid contrastive learning base unpaired domain translation)ネットワークを提案する。
注目とエントロピーの両方を取り入れて、ドメイン固有の領域を強調するとともに、高変動性合成陰性パッチを生成するノイズ混在モジュールや、すべての負性パッチを再重み付けするための変調ノイズコントラスト推定(MoNCE)の損失を発生させる。
提案されたC3TTLフレームワークは、民間車両や軍用車両のアノテートだけでなく、船舶の標的にも有効である。
論文 参考訳(メタデータ) (2024-01-22T20:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。