論文の概要: Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning
- arxiv url: http://arxiv.org/abs/2406.10479v2
- Date: Thu, 24 Apr 2025 15:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.825893
- Title: Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning
- Title(参考訳): 最大多様性ファインチューニングによる大規模言語モデルのプランニング能力のアンロック
- Authors: Wenjun Li, Changyu Chen, Pradeep Varakantham,
- Abstract要約: 大規模言語モデル(LLM)は、技術やシステム設計の促進を通じて、目覚ましいタスク解決能力を示している。
事前データに制限のあるタスクを計画するためには、GPTやGeminiといったプロプライエタリなモデルを含むLLMのパフォーマンスは貧弱である。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
- 参考スコア(独自算出の注目度): 10.704716790096498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive task-solving capabilities through prompting techniques and system designs, including solving planning tasks (e.g., math proofs, basic travel planning) when sufficient data is available online and used during pre-training. However, for planning tasks with limited prior data (e.g., blocks world, advanced travel planning), the performance of LLMs, including proprietary models like GPT and Gemini, is poor. This paper investigates the impact of fine-tuning on the planning capabilities of LLMs, revealing that LLMs can achieve strong performance in planning through substantial (tens of thousands of specific examples) fine-tuning. Yet, this process incurs high economic, time, and computational costs for each planning problem variation. To address this, we propose Clustering-Based Maximum Diversity Sampling (CMDS), which selects diverse and representative data to enhance sample efficiency and the model's generalization capability. Extensive evaluations demonstrate that CMDS-l, a baseline method combining CMDS with language embeddings, outperforms random sampling. Furthermore, we introduce a novel algorithm, CMDS-g, which encodes planning task instances with their graph representations into the embedding space. Empirical results show that CMDS-g consistently outperforms baseline methods across various scales and multiple benchmark domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前学習中に十分なデータがオンラインで利用可能で利用できる場合の計画タスク(例えば、数学の証明、基本的な旅行計画)の解決など、技術やシステム設計の促進を通じて、目覚ましいタスク解決能力を示している。
しかし、事前データ(例えば、ブロック世界、高度な旅行計画など)に制限のあるタスクでは、GPTやGeminiといったプロプライエタリなモデルを含むLCMの性能は貧弱である。
本稿では, LLMの計画能力に及ぼす微調整の影響について検討し, 実例数万件の微調整により, LLMの計画性能が向上できることを明らかにする。
しかし、このプロセスは、各計画問題の変化に対して、高い経済、時間、計算コストを発生させる。
そこで本研究では、サンプル効率とモデルの一般化能力を高めるために、多種多様な代表データを選択するクラスタリングに基づく最大多様性サンプリング(CMDS)を提案する。
CMDSと言語埋め込みを組み合わせたベースライン手法であるCMDS-lがランダムサンプリングより優れていることを示す。
さらに,グラフ表現を用いた計画タスクインスタンスを埋め込み空間にエンコードする新しいアルゴリズムCMDS-gを導入する。
実証実験の結果,CMDS-g は様々なスケールおよび複数のベンチマーク領域のベースライン法より一貫して優れていた。
関連論文リスト
- SPIO: Ensemble and Selective Strategies via LLM-Based Multi-Agent Planning in Automated Data Science [1.1343849658875087]
大規模言語モデル(LLM)は、動的推論と適応性を有効にすることで、自動データ分析と機械学習に革命をもたらした。
4つの主要なモジュールをまたいだマルチエージェントプランニングを編成する新しいフレームワークであるSPIOを提案する。
各モジュールでは、専用の計画エージェントが独立して、後続のステージにカスケードする候補戦略を生成し、包括的な探索を促進する。
論文 参考訳(メタデータ) (2025-03-30T04:45:32Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Non-myopic Generation of Language Models for Reasoning and Planning [45.75146679449453]
本稿では,モデル予測制御を利用した予測復号化手法を提案する。
我々の実験では、数学、コーディング、エージェントの幅広いタスクにおいて、大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-10-22T17:13:38Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用について検討する。
ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。
代わりに、マルチタスクの微調整はパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。