論文の概要: Hypothesis Search: Inductive Reasoning with Language Models
- arxiv url: http://arxiv.org/abs/2309.05660v1
- Date: Mon, 11 Sep 2023 17:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 11:30:15.513570
- Title: Hypothesis Search: Inductive Reasoning with Language Models
- Title(参考訳): 仮説探索: 言語モデルによる帰納的推論
- Authors: Ruocheng Wang, Eric Zelikman, Gabriel Poesia, Yewen Pu, Nick Haber,
Noah D. Goodman
- Abstract要約: 大規模言語モデル(LLM)の帰納的推論能力を改善することを提案する。
我々は LLM に対して,問題に関する複数の抽象的仮説を自然言語で提案し,その後,具体的なPython プログラムとして自然言語仮説を実装した。
我々は、ARC視覚誘導推論ベンチマーク、その変種1D-ARC、文字列変換データセットSyGuSにおけるパイプラインの有効性を検証する。
- 参考スコア(独自算出の注目度): 41.36577403707967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inductive reasoning is a core problem-solving capacity: humans can identify
underlying principles from a few examples, which can then be robustly
generalized to novel scenarios. Recent work has evaluated large language models
(LLMs) on inductive reasoning tasks by directly prompting them yielding "in
context learning." This can work well for straightforward inductive tasks, but
performs very poorly on more complex tasks such as the Abstraction and
Reasoning Corpus (ARC). In this work, we propose to improve the inductive
reasoning ability of LLMs by generating explicit hypotheses at multiple levels
of abstraction: we prompt the LLM to propose multiple abstract hypotheses about
the problem, in natural language, then implement the natural language
hypotheses as concrete Python programs. These programs can be directly verified
by running on the observed examples and generalized to novel inputs. Because of
the prohibitive cost of generation with state-of-the-art LLMs, we consider a
middle step to filter the set of hypotheses that will be implemented into
programs: we either ask the LLM to summarize into a smaller set of hypotheses,
or ask human annotators to select a subset of the hypotheses. We verify our
pipeline's effectiveness on the ARC visual inductive reasoning benchmark, its
variant 1D-ARC, and string transformation dataset SyGuS. On a random 40-problem
subset of ARC, our automated pipeline using LLM summaries achieves 27.5%
accuracy, significantly outperforming the direct prompting baseline (accuracy
of 12.5%). With the minimal human input of selecting from LLM-generated
candidates, the performance is boosted to 37.5%. (And we argue this is a lower
bound on the performance of our approach without filtering.) Our ablation
studies show that abstract hypothesis generation and concrete program
representations are both beneficial for LLMs to perform inductive reasoning
tasks.
- Abstract(参考訳): 帰納的推論は、中核的な問題解決能力である: 人間はいくつかの例から根底にある原則を特定できる。
最近の研究は、帰納的推論タスクにおける大きな言語モデル(LLM)を「文脈学習」を直接的に促すことによって評価してきた。
これは単純な帰納的タスクではうまく機能するが、抽象および推論コーパス(arc)のようなより複雑なタスクでは極めて機能しない。
本研究では,複数の抽象レベルで明示的な仮説を生成することで,LLMの帰納的推論能力を向上させることを提案する。
これらのプログラムは、観察された例に基づいて直接検証し、新しい入力に一般化することができる。
最先端のLSMによる生成の禁止コストのため、我々はプログラムに実装される仮説の集合をフィルタリングする中間段階を考える:LSMにより小さな仮説の集合にまとめるよう求めるか、あるいは人間のアノテータに仮説のサブセットを選択するよう求める。
このパイプラインの有効性をarc visual inductive reasoning benchmark, its variant 1d-arc, string transformation dataset sygus上で検証した。
ARCの40プロブレムのランダムなサブセットでは、LLMサマリーを用いた自動パイプラインが27.5%の精度を実現し、ダイレクトプロンプトベースライン(精度は12.5%)を大幅に上回った。
LLM 生成候補から選択する人の最小限の入力により、パフォーマンスは37.5%に向上する。
(また、これはフィルタリングなしでの我々のアプローチのパフォーマンスの低い境界であると主張する)。
我々のアブレーション研究は、抽象仮説生成と具体的なプログラム表現は、LLMが帰納的推論タスクを実行するのに有益であることを示している。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - EXPLORA: Efficient Exemplar Subset Selection for Complex Reasoning [5.172620636569522]
大規模言語モデル (LLMs) は文脈内学習 (ICL) を可能にしており、LLMはいくつかの実演サンプル(例)を使って特定のタスクにおいて習熟度を取得できる。
ICLにおける重要な課題は、タスク特化(静的)またはテスト特化(動的)のいずれかが可能な最適例の選択である。
論文 参考訳(メタデータ) (2024-11-06T12:48:04Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。