論文の概要: SkillGen: Learning Domain Skills for In-Context Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2511.14670v1
- Date: Tue, 18 Nov 2025 17:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.225856
- Title: SkillGen: Learning Domain Skills for In-Context Sequential Decision Making
- Title(参考訳): SkillGen: コンテキスト内シーケンス決定のためのドメインスキルを学ぶ
- Authors: Ruomeng Ding, Wei Cheng, Minglai Shao, Chen Zhao,
- Abstract要約: 我々は、構造化シーケンシャル推論のためのスキルベースのICLフレームワークであるSkillGenを紹介する。
我々は、SkillGenが一貫した利益を達成し、モデル全体の平均で5.9%から16.5%の進歩率を向上させることを示した。
- 参考スコア(独自算出の注目度): 24.41349550520032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied to sequential decision-making through in-context learning (ICL), yet their effectiveness is highly sensitive to prompt quality. Effective prompts should meet three principles: focus on decision-critical information, provide step-level granularity, and minimize reliance on expert annotations through label efficiency. However, existing ICL methods often fail to satisfy all three criteria simultaneously. Motivated by these challenges, we introduce SkillGen, a skill-based ICL framework for structured sequential reasoning. It constructs an action-centric, domain-level graph from sampled trajectories, identifies high-utility actions via temporal-difference credit assignment, and retrieves step-wise skills to generate fine-grained, context-aware prompts. We further present a theoretical analysis showing that focusing on high-utility segments supports task identifiability and informs more effective ICL prompt design. Experiments on ALFWorld, BabyAI, and ScienceWorld, using both open-source and proprietary LLMs, show that SkillGen achieves consistent gains, improving progress rate by 5.9%-16.5% on average across models.
- Abstract(参考訳): 大規模言語モデル (LLM) は、文脈内学習 (ICL) によるシーケンシャルな意思決定にますます適用されているが、その有効性は、品質の迅速化に非常に敏感である。
効果的なプロンプトは、決定クリティカルな情報に集中し、段階的な粒度を提供し、ラベルの効率を通じて専門家のアノテーションへの依存を最小限にする、という3つの原則を満たすべきである。
しかし、既存のICL法は3つの基準を同時に満たさないことが多い。
これらの課題に触発され、構造化シーケンシャル推論のためのスキルベースのICLフレームワークであるSkillGenを紹介した。
サンプルトラジェクトリからアクション中心のドメインレベルグラフを構築し、時間差クレジット代入による高ユーティリティアクションを特定し、ステップワイズスキルを取得して、きめ細かいコンテキスト認識プロンプトを生成する。
さらに,高ユーティリティセグメントへのフォーカスがタスク識別性をサポートし,より効果的なICLプロンプト設計を通知できることを理論的に示す。
ALFWorld、BabyAI、ScienceWorldの実験では、オープンソースとプロプライエタリなLLMの両方を使用して、SkillGenが一貫した利益を達成し、モデル全体の平均で5.9%から16.5%の進歩率向上を実現している。
関連論文リスト
- Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition [47.068088124436535]
生成的スキル獲得により、エンボディエージェントは、スケーラブルで進化するコントロールスキルのレパートリーを積極的に学ぶことができる。
本稿では,実時間検証の原則を具体化技術学習に体系的に統合するフレームワークであるVERGSAを提案する。
我々の知る限り、本手法は検証駆動型生成スキル獲得のための総合的なトレーニングデータセットとして最初のものである。
論文 参考訳(メタデータ) (2025-05-16T12:19:13Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [15.560280546809457]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。
提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
精度は4.0%から44.3%に向上した。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Knowledgeable In-Context Tuning: Exploring and Exploiting Factual Knowledge for In-Context Learning [37.22349652230841]
大規模言語モデル(LLM)は、テキストベースのプロンプトとしてラベル付きトレーニング例を条件にすることで、コンテキスト内学習(ICL)を可能にする。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。