論文の概要: Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.10379v2
- Date: Thu, 28 Sep 2023 11:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:57:20.347860
- Title: Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language
Models
- Title(参考訳): 思考のアルゴリズム:大規模言語モデルにおけるアイデア探索の強化
- Authors: Bilgehan Sel, Ahmad Al-Tawaha, Vanshaj Khattar, Ruoxi Jia, Ming Jin
- Abstract要約: 本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 18.302024623742533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current literature, aiming to surpass the "Chain-of-Thought" approach, often
resorts to an external modus operandi involving halting, modifying, and then
resuming the generation process to boost Large Language Models' (LLMs)
reasoning capacities. This mode escalates the number of query requests, leading
to increased costs, memory, and computational overheads. Addressing this, we
propose the Algorithm of Thoughts -- a novel strategy that propels LLMs through
algorithmic reasoning pathways, pioneering a new mode of in-context learning.
By employing algorithmic examples, we exploit the innate recurrence dynamics of
LLMs, expanding their idea exploration with merely one or a few queries. Our
technique outperforms earlier single-query methods and stands on par with a
recent multi-query strategy that employs an extensive tree search algorithm.
Intriguingly, our results suggest that instructing an LLM using an algorithm
can lead to performance surpassing that of the algorithm itself, hinting at
LLM's inherent ability to weave its intuition into optimized searches. We probe
into the underpinnings of our method's efficacy and its nuances in application.
- Abstract(参考訳): チェーン・オブ・マインド(chain-of-thought)アプローチを克服する現在の文献では、しばしば外部のモダス・オペランディ(modus operandi)に頼り、生成プロセスを再開し、大きな言語モデル(llm)の推論能力を高める。
このモードはクエリ要求の数をエスカレートし、コスト、メモリ、計算オーバーヘッドを増加させる。
これに対応するために,アルゴリズム推論経路を通じてLLMを推進し,文脈内学習の新たなモードを開拓する新しい戦略である「思考のアルゴリズム」を提案する。
アルゴリズムの例を用いて,llmの帰納的反復ダイナミクスを活用し,そのアイデア探索を1つないし数個のクエリで拡張する。
本手法は従来手法よりも優れており,木探索アルゴリズムを応用した最近のマルチクエリ戦略と同等である。
興味深いことに,本研究の結果から,アルゴリズムを用いたLLMの指導がアルゴリズム自体を上回る性能をもたらすことが示唆され,LLMの直感を最適化された検索に織り込む能力が示唆された。
我々は,本手法の有効性とそのニュアンスを基礎として検討する。
関連論文リスト
- Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Generating Chain-of-Thoughts with a Direct Pairwise-Comparison Approach
to Searching for the Most Promising Intermediate Thought [75.42560889109559]
思考の連鎖(CoT)法は、大きな言語モデルにステップバイステップの推論を導くために提案された。
大規模言語モデル(LLM)による評価は一般的にノイズが多く、信頼性が低いため、生成プロセスの誤解を招く可能性がある。
本稿では,最も有望な思考を直接識別する比較に基づくCoT生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Algorithm Evolution Using Large Language Model [18.03090066194074]
大規模言語モデル(AEL)を用いた進化的アルゴリズムを提案する。
AELはモデルトレーニングなしでアルゴリズムレベルの進化を行う。
人間の努力とドメイン知識の要求は大幅に削減できる。
論文 参考訳(メタデータ) (2023-11-26T09:38:44Z) - Neural Algorithmic Reasoning Without Intermediate Supervision [21.852775399735005]
我々は、中間的監督に訴えることなく、入出力ペアからのみニューラルネットワーク推論を学ぶことに集中する。
我々は、アルゴリズムの軌跡にアクセスできることなく、モデルの中間計算を正規化できる自己教師対象を構築する。
CLRSic Algorithmic Reasoning Benchmarkのタスクにおいて,提案手法はトラジェクトリを教師する手法と競合することを示す。
論文 参考訳(メタデータ) (2023-06-23T09:57:44Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。