論文の概要: Stream of Search (SoS): Learning to Search in Language
- arxiv url: http://arxiv.org/abs/2404.03683v1
- Date: Mon, 1 Apr 2024 06:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 17:55:13.467328
- Title: Stream of Search (SoS): Learning to Search in Language
- Title(参考訳): ストリーム・オブ・サーチ(SoS):言語による検索の学習
- Authors: Kanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman,
- Abstract要約: 本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。
本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。
この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 29.841835308845948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are rarely shown fruitful mistakes while training. They then struggle to look beyond the next token, suffering from a snowballing of errors and struggling to predict the consequence of their actions several steps ahead. In this paper, we show how language models can be taught to search by representing the process of search in language, as a flattened string -- a stream of search (SoS). We propose a unified language for search that captures an array of different symbolic search strategies. We demonstrate our approach using the simple yet difficult game of Countdown, where the goal is to combine input numbers with arithmetic operations to reach a target number. We pretrain a transformer-based language model from scratch on a dataset of streams of search generated by heuristic solvers. We find that SoS pretraining increases search accuracy by 25% over models trained to predict only the optimal search trajectory. We further finetune this model with two policy improvement methods: Advantage-Induced Policy Alignment (APA) and Self-Taught Reasoner (STaR). The finetuned SoS models solve 36% of previously unsolved problems, including problems that cannot be solved by any of the heuristic solvers. Our results indicate that language models can learn to solve problems via search, self-improve to flexibly use different search strategies, and potentially discover new ones.
- Abstract(参考訳): 言語モデルは、トレーニング中に実りの多い間違いを示すことはめったにない。
その後、彼らは次のトークンの向こうを見るのに苦労し、エラーの雪だるまに悩まされ、行動の結果を予測するのに苦労した。
本稿では,探索のストリームである平らな文字列(SoS)として,言語検索のプロセスを表現することによって,言語モデルがどのように探索を指導できるかを示す。
本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。
ここでは、入力数と算術演算を組み合わせ、対象数に到達させることを目標とする、単純なCountdownのゲームを用いて、我々のアプローチを実証する。
我々は、ヒューリスティックな解法によって生成される探索のストリームのデータセット上で、変換器に基づく言語モデルをスクラッチから事前訓練する。
SoS事前学習は最適な探索軌道のみを予測するために訓練されたモデルよりも25%精度が向上することがわかった。
さらに, このモデルを, アドバンテージ誘導政策調整(APA)と自己学習推論(STaR)の2つの政策改善手法で微調整する。
微調整されたSoSモデルは、これまで未解決だった問題の36%を解決している。
この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
関連論文リスト
- Planning In Natural Language Improves LLM Search For Code Generation [5.370466208990696]
自然言語における問題解決のための新しい探索アルゴリズムであるPlanSearchを提案する。
PlanSearchはHumanEval+、MBPP+、LiveCodeBenchで強力な結果を示している。
すべてのモデル、検索アルゴリズム、および分析されたベンチマークにおいて、検索によるパフォーマンス向上を正確に予測できることが示される。
論文 参考訳(メタデータ) (2024-09-05T17:44:49Z) - A Training Data Recipe to Accelerate A* Search with Language Models [3.037409201025504]
A*のような検索アルゴリズムを備えた大規模言語モデル(LLM)は、拡張された推論とスケーラブルな推論の約束を持っている。
我々は,A*探索アルゴリズムの要件を LLM の要件から実験的に切り離して,この課題を一般化する。
提案手法は,解を見つけるのに要する反復回数を最大15倍に削減し,壁面通過速度を最大5倍に向上させる。
論文 参考訳(メタデータ) (2024-07-13T19:21:44Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z) - Efficient Active Search for Combinatorial Optimization Problems [1.6543719822033436]
能動探索により、学習したモデルが、トレーニング中に見られたものよりもはるかに大きいインスタンスを効果的に解決できることが示される。
提案手法は、与えられたモデルの探索性能を大幅に向上する簡単な方法を提供し、ルーティング問題に対する最先端の機械学習手法より優れている。
論文 参考訳(メタデータ) (2021-06-09T15:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。