論文の概要: Adaptive Constraint Propagation: Scaling Structured Inference for Large Language Models via Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.00095v2
- Date: Tue, 06 Jan 2026 03:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.364379
- Title: Adaptive Constraint Propagation: Scaling Structured Inference for Large Language Models via Meta-Reinforcement Learning
- Title(参考訳): Adaptive Constraint Propagation:メタ強化学習による大規模言語モデルの構造化推論のスケーリング
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: MetaJuLSは、タスク固有のリトレーニングなしで、言語やタスクに適用可能な普遍的な制約伝達ポリシーを学習する。
10言語にわたるUniversal Dependenciesでは、MetaJuLSはタスク固有のトレーニングを何時間も必要とせず、5~10の勾配ステップ(5~15秒)で新しい言語やタスクに適応する。
メカニスティック・アナリティクス(Mechanistic analysis)は、人間のような構文解析戦略(easy-first)と新しい非直観的手法を明らかにする。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models increasingly require structured inference, from JSON schema enforcement to multi-lingual parsing, where outputs must satisfy complex constraints. We introduce MetaJuLS, a meta-reinforcement learning approach that learns universal constraint propagation policies applicable across languages and tasks without task-specific retraining. By formulating structured inference as adaptive constraint propagation and training a Graph Attention Network with meta-learning, MetaJuLS achieves 1.5--2.0$\times$ speedups over GPU-optimized baselines while maintaining within 0.2\% accuracy of state-of-the-art parsers. On Universal Dependencies across 10 languages and LLM-constrained generation (LogicBench, GSM8K-Constrained), MetaJuLS demonstrates rapid cross-domain adaptation: a policy trained on English parsing adapts to new languages and tasks with 5--10 gradient steps (5--15 seconds) rather than requiring hours of task-specific training. Mechanistic analysis reveals the policy discovers human-like parsing strategies (easy-first) and novel non-intuitive heuristics. By reducing propagation steps in LLM deployments, MetaJuLS contributes to Green AI by directly reducing inference carbon footprint.
- Abstract(参考訳): 大規模な言語モデルでは、JSONスキーマの実行から、複雑な制約を満たす出力の多言語解析に至るまで、構造的推論がますます必要になります。
本稿ではメタ強化学習のメタJuLSを紹介する。メタJuLSは言語やタスクに適用可能な普遍的制約伝達ポリシーをタスク固有のリトレーニングなしで学習するメタJuLSである。
構造化推論を適応的制約伝搬として定式化し、メタラーニングでグラフ注意ネットワークをトレーニングすることにより、MetaJuLSは、GPU最適化ベースラインよりも1.5-2.0$\times$のスピードアップを実現し、最先端パーサの0.2\%以内の精度を維持した。
10言語にわたる普遍的依存関係とLLM制約付き世代(LogicBench, GSM8K-Constrained)について、MetaJuLSは、迅速なクロスドメイン適応を実証している。
メカニスティック・アナリティクス(Mechanistic analysis)は、人間のような解析戦略(easy-first)と新しい非直観的ヒューリスティックス(intuitive heuristics)を発見する政策を明らかにする。
LLMデプロイメントにおける伝搬ステップの削減により、MetaJuLSは、推論炭素フットプリントを直接削減することによって、Green AIに貢献している。
関連論文リスト
- SpidR-Adapt: A Universal Speech Representation Model for Few-Shot Adaptation [40.55805997909858]
最小限のラベル付きデータを用いた新しい言語への迅速な適応のためのSpedR-Adaptを提案する。
両レベル最適化フレームワークとして適応処理を定式化するマルチタスク適応型事前学習プロトコルを構築した。
経験的に、SpedR-Adaptは音韻識別性と音声言語モデリングの急速な進歩を実現している。
論文 参考訳(メタデータ) (2025-12-24T14:33:16Z) - SCOPE: Language Models as One-Time Teacher for Hierarchical Planning in Text Environments [4.375012768093524]
テキストベースの環境における長期計画は、オープンエンドアクションスペース、あいまいな観察、まばらなフィードバックによる重要な課題を示す。
近年の研究では、大規模言語モデル(LLM)が世界に関する豊富な意味知識をエンコードしていることが示唆されている。
既存のアプローチは、トレーニングや推論中にLLMを問い合わせることに大きく依存することが多く、計算コストが高く、効率的なデプロイが困難である。
LLM生成サブゴールを利用したワンショット階層型プランナーSCOPE(Subgoal-Conditioned Pretraining for Efficient Planning)を導入する。
論文 参考訳(メタデータ) (2025-12-10T18:26:14Z) - Multi-Task Reinforcement Learning with Language-Encoded Gated Policy Networks [0.6345523830122167]
マルチタスク強化学習は、様々な目的にまたがる振る舞いを導くために、タスクメタデータに依存することが多い。
マルチタスクRLのための言語条件混合型アーキテクチャであるLexical Policy Networks (LEXPOL)を提案する。
LEXPOLはタスクメタデータをテキストエンコーダにエンコードし、学習したゲーティングモジュールを使用してサブポリティケーションを選択したりブレンドしたりする。
論文 参考訳(メタデータ) (2025-10-07T17:12:24Z) - Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines [71.14354526117958]
In-context Learning (ICL) は、事前訓練された大規模言語モデル(LLM)の重要かつ完全には理解されていない能力である。
タスク言語とフォーマット特性をキャプチャする2つのガイドラインの並列ストリームを効率よく生成するLongGuideを提案する。
LongGuideはガイドラインの最良の組み合わせを自動的に選択し、ゼロショット設定と少数ショット設定の両方で、強力なオープンソースLLMとクローズドソースLLMの両方を5%以上改善する。
論文 参考訳(メタデータ) (2025-06-02T02:35:24Z) - Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - Learning to Learn with Contrastive Meta-Objective [48.27877062976768]
本稿では,メタトレーニングにおけるタスクアイデンティティのさらなる監視として活用することを提案する。
提案したConMLは、対照的なメタオブジェクトの評価と最適化を行っている。
我々は、ConMLが既存のメタ学習モデルだけでなく、既存のメタ学習モデルとシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-10-08T12:22:10Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。