論文の概要: On the Generalization Gap in LLM Planning: Tests and Verifier-Reward RL
- arxiv url: http://arxiv.org/abs/2601.14456v1
- Date: Tue, 20 Jan 2026 20:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.144939
- Title: On the Generalization Gap in LLM Planning: Tests and Verifier-Reward RL
- Title(参考訳): LLM計画における一般化ギャップについて:テストと検証-逆RL
- Authors: Valerio Belcamino, Nicholas Attolino, Alessio Capitanelli, Fulvio Mastrogiovanni,
- Abstract要約: 細調整された大規模言語モデル(LLM)は、PDDL計画タスクにおいて、高い有効計画記憶率を達成することができる。
しかし、これが移行可能な計画能力やドメイン固有の一般化を反映しているかどうかは不明だ。
- 参考スコア(独自算出の注目度): 2.3553294445398567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that fine-tuned Large Language Models (LLMs) can achieve high valid plan rates on PDDL planning tasks. However, it remains unclear whether this reflects transferable planning competence or domain-specific memorization. In this work, we fine-tune a 1.7B-parameter LLM on 40,000 domain-problem-plan tuples from 10 IPC 2023 domains, and evaluate both in-domain and cross-domain generalization. While the model reaches 82.9% valid plan rate in in-domain conditions, it achieves 0% on two unseen domains. To analyze this failure, we introduce three diagnostic interventions, namely (i) instance-wise symbol anonymization, (ii) compact plan serialization, and (iii) verifier-reward fine-tuning using the VAL validator as a success-focused reinforcement signal. Symbol anonymization and compact serialization cause significant performance drops despite preserving plan semantics, thus revealing strong sensitivity to surface representations. Verifier-reward fine-tuning reaches performance saturation in half the supervised training epochs, but does not improve cross-domain generalization. For the explored configurations, in-domain performance plateaus around 80%, while cross-domain performance collapses, suggesting that our fine-tuned model relies heavily on domain-specific patterns rather than transferable planning competence in this setting. Our results highlight a persistent generalization gap in LLM-based planning and provide diagnostic tools for studying its causes.
- Abstract(参考訳): 最近の研究は、PDDL計画タスクにおいて、細調整された大規模言語モデル(LLM)が高い有効計画率を達成することを示している。
しかし、これが移行可能な計画能力やドメイン固有の記憶を反映しているかどうかは不明だ。
本研究では、10 IPC 2023ドメインから4万個のドメインプロブレムプランタプル上に1.7BパラメーターのLLMを微調整し、ドメイン内およびクロスドメインの一般化を評価する。
モデルがドメイン内の条件で82.9%の有効プランレートに達する一方で、2つの目に見えないドメインで0%を達成する。
この障害を解析するために,3つの診断的介入,すなわち診断的介入を導入する。
(i)インスタンス単位のシンボル匿名化
(ii)コンパクトプランシリアライゼーション、及び
三 VALバリデータを用いた検証器逆微調整を成功中心の強化信号として行うこと。
記号の匿名化とコンパクトなシリアライゼーションは、計画のセマンティクスを保存するにも拘わらず顕著な性能低下を引き起こし、表面表現に強い感度を示す。
検証器逆微調整は、教師付きトレーニングエポックの半分で性能飽和に達するが、クロスドメインの一般化は改善しない。
検討した構成では、ドメイン内のパフォーマンスは80%程度低下する一方、ドメイン間のパフォーマンスは崩壊する。
以上の結果から,LSMをベースとした計画において,継続的な一般化のギャップが指摘され,その原因を解明するための診断ツールが提供された。
関連論文リスト
- GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings [12.949322198287417]
ドメイン固有の埋め込みモデルは、専門的なセマンティック理解を必要とするアプリケーションに対して約束されている。
プルーニングによるモデル圧縮は有望な解決策を提供するが、既存のプルーニング手法は全てのパラメータを均一に扱う。
本稿では,ドメインの重要性と一般的な言語基盤の保全を両立する,プランニングフレームワークであるGAPruneを提案する。
論文 参考訳(メタデータ) (2025-09-13T15:03:37Z) - DIDS: Domain Impact-aware Data Sampling for Large Language Model Training [61.10643823069603]
大規模言語モデルに対するドメインインパクト対応データサンプリング(DIDS)を提案する。
学習効果に基づくDIDSグループトレーニングデータでは、プロキシ言語モデルと次元削減が使用される。
同等のトレーニング効率を維持しながら平均パフォーマンスを3.4%向上させる。
論文 参考訳(メタデータ) (2025-04-17T13:09:38Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Generalizing to Unseen Domains with Wasserstein Distributional Robustness under Limited Source Knowledge [22.285156929279207]
ドメインの一般化は、目に見えないターゲットドメインでうまく機能する普遍的なモデルを学ぶことを目的としている。
We propose a novel domain generalization framework called Wasserstein Distributionally Robust Domain Generalization (WDRDG)。
論文 参考訳(メタデータ) (2022-07-11T14:46:50Z) - Boosting Cross-Domain Speech Recognition with Self-Supervision [35.01508881708751]
自動音声認識(ASR)のクロスドメイン性能は,トレーニングとテストのミスマッチにより著しく損なわれる可能性がある。
従来, 自己監督学習 (SSL) や擬似ラベル学習 (PL) は, 未ラベルデータの自己監督を利用してUDAに有効であることが示された。
この研究は、事前学習および微調整のパラダイムにおいて、ラベルなしデータを完全に活用する体系的なUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。