論文の概要: Type-Compliant Adaptation Cascades: Adapting Programmatic LM Workflows to Data
- arxiv url: http://arxiv.org/abs/2508.18244v2
- Date: Fri, 26 Sep 2025 21:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.176796
- Title: Type-Compliant Adaptation Cascades: Adapting Programmatic LM Workflows to Data
- Title(参考訳): Type-Compliant Adaptation Cascades: プログラム型LMワークフローをデータに適用する
- Authors: Chu-Cheng Lin, Daiyi Peng, Yifeng Lu, Ming Zhang, Eugene Ie,
- Abstract要約: 本稿では,ワークフロー適応を学習型確率型プログラムとして再放送するフレームワークであるType-Compliant Adaptation Cascadesを紹介する。
経験的に、TACは最先端のプロンプト最適化ベースラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 12.136710894967088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliably composing Large Language Models (LLMs) for complex, multi-step workflows remains a significant challenge. The dominant paradigm -- optimizing discrete prompts in a pipeline -- is notoriously brittle and struggles to enforce the formal compliance required for structured tasks. We introduce Type-Compliant Adaptation Cascades (TACs), a framework that recasts workflow adaptation as learning typed probabilistic programs. TACs treat the entire workflow, which is composed of parameter-efficiently adapted LLMs and deterministic logic, as an unnormalized joint distribution. This enables principled, gradient-based training even with latent intermediate structures. We provide theoretical justification for our tractable optimization objective, proving that the optimization bias vanishes as the model learns type compliance. Empirically, TACs significantly outperform state-of-the-art prompt-optimization baselines. Gains are particularly pronounced on structured tasks, improving FinQA from $12.0\%$ to $24.7\%$ for a Qwen 3 8B model, MGSM-SymPy from $57.1\%$ to $75.9\%$ for a Gemma 2 27B model, MGSM from $1.6\%$ to $27.3\%$, and MuSR from $36.5\%$ to $62.6\%$ for a Gemma 7B model. TACs offer a robust and theoretically grounded paradigm for developing reliable, task-compliant LLM systems.
- Abstract(参考訳): 複雑なマルチステップワークフローのために、LLM(Large Language Models)を確実に構成することは、依然として大きな課題である。
パイプライン内の離散的なプロンプトを最適化する支配的なパラダイムは、脆弱で、構造化タスクに必要な公式なコンプライアンスを強制するのに苦労していることで知られる。
本稿では,ワークフロー適応を学習型確率プログラムとして再放送するフレームワークであるType-Compliant Adaptation Cascades (TACs)を紹介する。
TACはパラメータに適応したLLMと決定論的論理からなるワークフロー全体を、非正規化された関節分布として扱う。
これにより、潜伏中間構造であっても、原則的、勾配に基づくトレーニングが可能になる。
モデルが型コンプライアンスを学ぶと、最適化バイアスがなくなることを証明し、抽出可能な最適化の目的に対して理論的に正当化する。
経験的に、TACは最先端のプロンプト最適化ベースラインを大幅に上回る。
Qwen 3 8BモデルのFinQAを$2.0\%から$24.7\%に改善し、MGSM-SymPyを$57.1\%から$75.9\%に、MGSMを$1.6\%から$27.3\%に、MuSRを$36.5\%から$62.6\%に改善した。
TACは信頼性のあるタスク準拠のLLMシステムを開発するための、堅牢で理論的に基礎的なパラダイムを提供する。
関連論文リスト
- $V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。
このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。
未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文 参考訳(メタデータ) (2026-02-03T14:35:23Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Financial Text Classification Based On rLoRA Finetuning On Qwen3-8B model [0.0]
最先端モデルQwen3-8Bは、強い命令追従と多言語機能を示す。
推論ベースのベンチマークで、特に効率的な微調整と高性能に最適化されている。
命令ベースの微調整とメモリ効率の最適化手法の相乗効果は、Qwen3-8Bがリアルタイム金融NLPアプリケーションにスケーラブルで経済的な選択肢となる可能性を示唆している。
論文 参考訳(メタデータ) (2025-11-29T21:04:13Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision [49.59309446816251]
既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。
本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。
AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
論文 参考訳(メタデータ) (2025-09-29T06:52:35Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - TaoSR1: The Thinking Model for E-commerce Relevance Search [8.532849325470632]
BERTベースのモデルはセマンティックマッチングが優れているが、複雑な推論能力がない。
本稿では,このタスクのために大規模言語モデルを直接デプロイするフレームワークを提案する。このフレームワークは,CoT(Chain-of-Thought)エラーの蓄積,差別的幻覚,デプロイメント実現可能性など,主要な課題に対処する。
筆者らのフレームワークであるTaoSR1は,(1)CoTを用いた教師付ファインチューニング(SFT),(2)パス@N戦略によるオフラインサンプリングとDPOによる生成品質向上,(3)グループ相対政策最適化(GRPO)による難易度に基づく動的サンプリングの3段階からなる。
論文 参考訳(メタデータ) (2025-08-17T13:48:48Z) - Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies [6.7519234849348075]
推論の混合は、様々な推論戦略を大きな言語モデルに組み込む。
MoR150はCoTプロンプトで0.730(2.2%改善)、ベースラインで0.734(13.5%改善)を達成した。
論文 参考訳(メタデータ) (2025-07-01T09:39:04Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - AdaptiveLLM: A Framework for Selecting Optimal Cost-Efficient LLM for Code-Generation Based on CoT Length [5.856039862078523]
本稿では,タスクの難易度を自動的に評価することにより,与えられたコーディングタスクに対して最適な大言語モデル(LLM)を動的に選択するフレームワークであるAdaptiveLLMを紹介する。
筆者らのフレームワークはまず,推論モデルから生成したChain-of-Thought長を用いてタスクの難易度を推定し,これらをk平均で3つの難易度にクラスタ化し,難易度を考慮したCodeBERTを組み込む。
我々のフレームワークは、pass@1スコアを7.86%改善し、ベースラインメソッドである ComplexityNet と比較して、リソース消費を88.9%削減します。
論文 参考訳(メタデータ) (2025-06-12T09:43:48Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。