論文の概要: State Machine of Thoughts: Leveraging Past Reasoning Trajectories for
Enhancing Problem Solving
- arxiv url: http://arxiv.org/abs/2312.17445v2
- Date: Sat, 9 Mar 2024 02:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:51:50.968298
- Title: State Machine of Thoughts: Leveraging Past Reasoning Trajectories for
Enhancing Problem Solving
- Title(参考訳): state machine of thoughts: 問題解決を強化するために過去の推論軌跡を活用する
- Authors: Jia Liu, Jie Shuai, Xiyao Li
- Abstract要約: 我々は、状態マシンを使用して、以前の推論軌道から得られた経験を記録する。
状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。
提案するState Machine of Thoughts (SMoT)は,最も最適なサブソリューションを選択し,誤ったサブソリューションを避ける。
- 参考スコア(独自算出の注目度): 6.198707341858042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Model-based agents reason within an
exploration-evaluation framework, navigating problem-solving processes in a
tree-like manner. However, these methods often neglect successful reasoning
trajectories once a problem is resolved, leading to inefficient use of these
trajectories for future analogous problems. To address this inefficiency, we
adopt a state machine to record experience derived from previous reasoning
trajectories. Within the state machine, states represent decomposed
sub-problems, while state transitions reflect the dependencies among
sub-problems. The state machine records both successful and failed
trajectories. Utilizing the experience from the state machine, our proposed
State Machine of Thoughts (SMoT) selects the most optimal sub-solutions and
avoids incorrect ones. Our experiments show that SMoT can significantly improve
problem-solving abilities in two exploration-intensive problems: the 24-point
game and a taxi navigation reinforcement learning game.
- Abstract(参考訳): 現在の大規模言語モデルベースのエージェントは、探索評価フレームワーク内で、ツリーのような方法で問題解決プロセスをナビゲートする。
しかしながら、これらの手法は問題が解決されると推論軌道をうまく無視することが多く、将来の類似問題にこれらの軌道を非効率に利用する。
この非効率に対処するために、前回の推論軌跡に由来する経験を記録するステートマシンを採用する。
状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。
ステートマシンは成功した軌道と失敗した軌道の両方を記録する。
提案するステートマシン・オブ・シンキング(smot)は,ステートマシンの経験を利用して最も最適なサブソリューションを選択し,誤りを回避している。
実験の結果,24ポイントゲームとタクシーナビゲーション強化学習ゲームという2つの探索集約的課題において,smotは問題解決能力を大幅に向上できることがわかった。
関連論文リスト
- Optimal Control of Fluid Restless Multi-armed Bandits: A Machine Learning Approach [5.22980614912553]
流体レスレスマルチアームバンディット(FRMAB)の最適制御のための機械学習手法を提案する。
FRMAB問題の基本特性を導出することにより,効率的な機械学習に基づくアルゴリズムを設計する。
提案手法は高品質な状態フィードバックポリシを出力し,流体問題に対する直接数値アルゴリズムと比較して最大2600万倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-02-06T02:34:36Z) - Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - Learning Agents With Prioritization and Parameter Noise in Continuous State and Action Space [0.0]
本稿では,従来の連続状態問題と行動空間問題において,先行した結果よりも高い性能を示すために,最先端手法の組み合わせを優先的に導入する。
実験では、トレーニング中にパラメータノイズを用いることで、より堅牢なRLモデルも実現した。
論文 参考訳(メタデータ) (2024-10-15T04:12:12Z) - Generalizing Multi-Step Inverse Models for Representation Learning to Finite-Memory POMDPs [23.584313644411967]
本研究では,関連する情報のみを符号化し,無関係な情報を破棄する情報的,あるいはエージェント中心の状態表現の発見問題について検討する。
我々の結果は、決定論的力学設定の理論と、代替直観的アルゴリズムの反例を含む。
アルゴリズムを正しく使用した場合に成功させ、正しく使用した場合に劇的な失敗を引き起こす。
論文 参考訳(メタデータ) (2024-04-22T19:46:16Z) - An Online Approach to Solving Public Transit Stationing and Dispatch
Problem [7.948662269574215]
交通機関は限られた数の車両を予備に保管し、破壊時に被害経路を緩和するために派遣する。
本稿では、この問題を解決するために、非ミオピックシーケンシャルな決定手順を用いた原則的アプローチについて述べる。
実験の結果、提案手法は乗客を2%増やし、デッドヘッドマイルを40%削減することがわかった。
論文 参考訳(メタデータ) (2024-03-05T21:48:29Z) - Reinforcement Learning in System Identification [0.0]
システム識別は、学習前方モデル、伝達関数、システムダイナミクスなどとも呼ばれるが、科学と工学の両方において長い伝統がある。
ここでは、この問題における強化学習の利用について考察する。
本稿では,この問題が強化学習問題として自然と音にどのように適合するかを詳述し,RLがこのような問題を解決する上で有望な手法であることを実証する実験結果を示す。
論文 参考訳(メタデータ) (2022-12-14T09:20:42Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Do Neural Optimal Transport Solvers Work? A Continuous Wasserstein-2
Benchmark [133.46066694893318]
最適輸送のためのニューラルネットワークに基づく解法の性能を評価する。
既存の解法では,下流タスクでは良好に機能するにもかかわらず,最適な輸送マップを復元できないことがわかった。
論文 参考訳(メタデータ) (2021-06-03T15:59:28Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Deep Multi-Task Learning for Joint Localization, Perception, and
Prediction [68.50217234419922]
本稿では,ローカライズエラー下の最先端の自律性スタックで発生する問題について検討する。
我々は,認識,予測,局所化を共同で行うシステムの設計を行う。
本アーキテクチャでは,両タスク間の計算を再利用し,効率よくローカライズエラーを修正できる。
論文 参考訳(メタデータ) (2021-01-17T17:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。