論文の概要: Improving Large Language Model Planning with Action Sequence Similarity
- arxiv url: http://arxiv.org/abs/2505.01009v1
- Date: Fri, 02 May 2025 05:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.91335
- Title: Improving Large Language Model Planning with Action Sequence Similarity
- Title(参考訳): アクションシーケンス類似性による大規模言語モデル計画の改善
- Authors: Xinran Zhao, Hanie Sedghi, Bernd Bohnet, Dale Schuurmans, Azade Nova,
- Abstract要約: 本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。
GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 50.52049888490524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning is essential for artificial intelligence systems to look ahead and proactively determine a course of actions to reach objectives in the virtual and real world. Recent work on large language models (LLMs) sheds light on their planning capability in various tasks. However, it remains unclear what signals in the context influence the model performance. In this work, we explore how to improve the model planning capability through in-context learning (ICL), specifically, what signals can help select the exemplars. Through extensive experiments, we observe that commonly used problem similarity may result in false positives with drastically different plans, which can mislead the model. In response, we propose to sample and filter exemplars leveraging plan side action sequence similarity (AS). We propose GRASE-DC: a two-stage pipeline that first re-samples high AS exemplars and then curates the selected exemplars with dynamic clustering on AS to achieve a balance of relevance and diversity. Our experimental result confirms that GRASE-DC achieves significant performance improvement on various planning tasks (up to ~11-40 point absolute accuracy improvement with 27.3% fewer exemplars needed on average). With GRASE-DC* + VAL, where we iteratively apply GRASE-DC with a validator, we are able to even boost the performance by 18.9% more. Extensive analysis validates the consistent performance improvement of GRASE-DC with various backbone LLMs and on both classical planning and natural language planning benchmarks. GRASE-DC can further boost the planning accuracy by ~24 absolute points on harder problems using simpler problems as exemplars over a random baseline. This demonstrates its ability to generalize to out-of-distribution problems.
- Abstract(参考訳): 人工知能システムにとって計画は、仮想世界と現実世界の目的を達成するための行動の行を積極的に決定する上で不可欠である。
大規模言語モデル(LLM)に関する最近の研究は、様々なタスクにおける計画能力に光を当てている。
しかし、文脈内の信号がモデルの性能にどのような影響を及ぼすかはいまだ不明である。
そこで本研究では,テキスト内学習(ICL)によるモデル計画能力の向上について検討する。
広範囲な実験を通して、よく使われる問題類似性は、非常に異なる計画を持つ偽陽性をもたらす可能性があり、そのモデルが誤認される可能性があることを観察する。
そこで本研究では,計画側アクションシーケンス類似性(AS)を利用した例題のサンプルとフィルタを提案する。
GRASE-DCは2段階のパイプラインで、まず高いASの例を再サンプリングし、選択した例をAS上の動的クラスタリングでキュレートし、妥当性と多様性のバランスをとる。
実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現している(平均で27.3%の精度で最大11~40ポイントの絶対精度向上を実現している)。
GRASE-DC* + VALでは、バリデータにGRASE-DCを繰り返し適用することで、パフォーマンスをさらに18.9%向上することができます。
拡張解析は、GRASE-DCの様々なバックボーンLLMと古典的計画と自然言語計画のベンチマークで一貫した性能改善を検証する。
GRASE-DCは、より単純な問題をランダムなベースライン上の例示として使用することで、より難しい問題に対して、およそ24の絶対点で計画の精度をさらに向上させることができる。
このことは、分布外問題に一般化する能力を示している。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の促進を通じて、目覚ましいタスク解決能力を示している。
事前データに制限のあるタスクを計画するためには、GPTやGeminiといったプロプライエタリなモデルを含むLLMのパフォーマンスは貧弱である。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。