論文の概要: RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement
- arxiv url: http://arxiv.org/abs/2412.11417v1
- Date: Mon, 16 Dec 2024 03:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:20.584912
- Title: RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement
- Title(参考訳): RL-LLM-DT:RL評価とLLM向上に基づく自動決定木生成法
- Authors: Junjie Lin, Jian Zhao, Yue Deng, Youpeng Zhao, Wengang Zhou, Houqiang Li,
- Abstract要約: RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。
この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
- 参考スコア(独自算出の注目度): 85.31301493247938
- License:
- Abstract: Traditionally, AI development for two-player zero-sum games has relied on two primary techniques: decision trees and reinforcement learning (RL). A common approach involves using a fixed decision tree as one player's strategy while training an RL agent as the opponent to identify vulnerabilities in the decision tree, thereby improving its strategic strength iteratively. However, this process often requires significant human intervention to refine the decision tree after identifying its weaknesses, resulting in inefficiencies and hindering full automation of the strategy enhancement process. Fortunately, the advent of Large Language Models (LLMs) offers a transformative opportunity to automate the process. We propose RL-LLM-DT, an automatic decision tree generation method based on RL Evaluation and LLM Enhancement. Given an initial decision tree, the method involves two important iterative steps. Response Policy Search: RL is used to discover counter-strategies targeting the decision tree. Policy Improvement: LLMs analyze failure scenarios and generate improved decision tree code. In our method, RL focuses on finding the decision tree's flaws while LLM is prompted to generate an improved version of the decision tree. The iterative refinement process terminates when RL can't find any flaw of the tree or LLM fails to improve the tree. To evaluate the effectiveness of this integrated approach, we conducted experiments in a curling game. After iterative refinements, our curling AI based on the decision tree ranks first on the Jidi platform among 34 curling AIs in total, which demonstrates that LLMs can significantly enhance the robustness and adaptability of decision trees, representing a substantial advancement in the field of Game AI. Our code is available at https://github.com/Linjunjie99/RL-LLM-DT.
- Abstract(参考訳): 伝統的に、2プレイヤーゼロサムゲームのためのAI開発は、決定木と強化学習(RL)という2つの主要な技術に依存している。
一般的なアプローチでは、一方のプレイヤーの戦略として固定決定木を使用し、一方のプレイヤーはRLエージェントを相手として訓練して決定木内の脆弱性を特定し、戦略的強度を反復的に改善する。
しかし、このプロセスは、弱点を特定した後、決定木を洗練するために重大な人間の介入を必要とすることが多く、その結果、非効率性や戦略強化プロセスの完全な自動化が妨げられる。
幸いなことに、LLM(Large Language Models)の出現は、プロセスを自動化するための変革的な機会を提供する。
RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。
最初の決定木が与えられた場合、この方法は2つの重要な反復的なステップを含む。
応答ポリシー探索: RL は決定木をターゲットにした反戦略を発見するために使用される。
ポリシーの改善: LLMは障害シナリオを分析し、改善された決定ツリーコードを生成する。
本手法では, LLMが決定木の改良版を生成するように促される一方で, RLは決定木の欠陥の発見に重点を置いている。
RLが木の欠陥を見つけられなかったり、LLMが木の改善に失敗したりすると、反復的な精錬プロセスは終了する。
この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
反復的な改善の後、我々のカーリングAIは、合計34のカーリングAIのうち、Jidiプラットフォームで第1位にランクインし、LLMが決定ツリーの堅牢性と適応性を著しく向上できることを示し、ゲームAIの分野における実質的な進歩を示している。
私たちのコードはhttps://github.com/Linjunjie99/RL-LLM-DTで利用可能です。
関連論文リスト
- GPTree: Towards Explainable Decision-Making via LLM-powered Decision Trees [0.0]
GPTreeは、決定木の説明可能性とLLMの高度な推論能力を組み合わせた、新しいフレームワークである。
我々の決定木は、スタートアップの開始段階で「ユニコーン」スタートアップを特定するための精度が7.8%に達した。
論文 参考訳(メタデータ) (2024-11-13T00:14:09Z) - Optimizing Interpretable Decision Tree Policies for Reinforcement Learning [10.68128849363198]
決定木は、その固有の解釈可能性について教師あり学習において注目を集めている。
本稿では、強化学習環境におけるニューラルネットワークを置き換えるために、解釈可能な決定木ポリシーを最適化する問題を考察する。
論文 参考訳(メタデータ) (2024-08-21T14:04:00Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - TreeDQN: Learning to minimize Branch-and-Bound tree [78.52895577861327]
Branch-and-Boundは、Mixed Linear Programsという形で最適化タスクを解決するための便利なアプローチである。
解法の効率は、分割する変数を選択するのに使用される分岐に依存する。
分岐を効率的に学習できる強化学習法を提案する。
論文 参考訳(メタデータ) (2023-06-09T14:01:26Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。