論文の概要: Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement
- arxiv url: http://arxiv.org/abs/2310.08559v4
- Date: Wed, 22 May 2024 14:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:43:06.223464
- Title: Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement
- Title(参考訳): 現象を補う:仮説補充による言語モデルの帰納的推論能力の検証
- Authors: Linlu Qiu, Liwei Jiang, Ximing Lu, Melanie Sclar, Valentina Pyatkin, Chandra Bhagavatula, Bailin Wang, Yoon Kim, Yejin Choi, Nouha Dziri, Xiang Ren,
- Abstract要約: 言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
- 参考スコア(独自算出の注目度): 92.61557711360652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to derive underlying principles from a handful of observations and then generalize to novel situations -- known as inductive reasoning -- is central to human intelligence. Prior work suggests that language models (LMs) often fall short on inductive reasoning, despite achieving impressive success on research benchmarks. In this work, we conduct a systematic study of the inductive reasoning capabilities of LMs through iterative hypothesis refinement, a technique that more closely mirrors the human inductive process than standard input-output prompting. Iterative hypothesis refinement employs a three-step process: proposing, selecting, and refining hypotheses in the form of textual rules. By examining the intermediate rules, we observe that LMs are phenomenal hypothesis proposers (i.e., generating candidate rules), and when coupled with a (task-specific) symbolic interpreter that is able to systematically filter the proposed set of rules, this hybrid approach achieves strong results across inductive reasoning benchmarks that require inducing causal relations, language-like instructions, and symbolic concepts. However, they also behave as puzzling inductive reasoners, showing notable performance gaps between rule induction (i.e., identifying plausible rules) and rule application (i.e., applying proposed rules to instances), suggesting that LMs are proposing hypotheses without being able to actually apply the rules. Through empirical and human analyses, we further reveal several discrepancies between the inductive reasoning processes of LMs and humans, shedding light on both the potentials and limitations of using LMs in inductive reasoning tasks.
- Abstract(参考訳): 基礎となる原則を少数の観察から導き出し、誘導的推論として知られる新しい状況に一般化する能力は、人間の知性の中心である。
以前の研究は、言語モデル(LM)が、しばしば帰納的推論に不足していることを示唆している。
本研究では,従来のインプット・アウトプット・プロンプトよりも人為的インダクティブ・プロセスをより密接に反映する手法である反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
反復的仮説修正は3段階のプロセス、すなわちテキスト規則の形で仮説を提案し、選択し、修正するプロセスを採用する。
中間ルールを検証した結果,LMは現象仮説の提案者(すなわち,候補規則の生成)であり,提案したルールセットを体系的にフィルタリングする(タスク固有の)シンボリックインタプリタと組み合わせることで,因果関係,言語的指示,記号的概念の誘導を必要とする帰納的推論ベンチマークに対して強い結果が得られた。
しかし、それらは帰納的推論器としても振る舞うことができ、規則帰納法(可塑性規則を識別する)と規則適用法(インスタンスに提案された規則を適用する)の間に顕著なパフォーマンスギャップを示し、LMが実際に規則を適用することなく仮説を提案していることを示唆している。
実験的および人為的分析により, LMの誘導的推論過程と人間とのいくつかの相違が明らかとなり, 誘導的推論タスクにおけるLMの使用の可能性と限界の両方に光を当てる。
関連論文リスト
- MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction [3.961279440272764]
RULEARNは,対話型環境下での大規模言語モデルのルール学習能力を評価するために設計された,新しいベンチマークである。
誘導, 誘引, アブダクションのプロセスを統合する新しい推論フレームワークであるIDEAを提案する。
5つの代表的なLCMを含むIDEAフレームワークの評価は,ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-19T23:37:07Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic [14.503982715625902]
本研究では,言語モデル(LM)に対する合成コーパスに基づくアプローチについて検討し,論理的帰納的推論能力を得る。
形式論理理論に基づく推論規則は,多段階的に組み合わせることで,他の推論規則を導出することができる。
我々は、FLDコーパスで訓練されたLMがより一般化可能な推論能力を取得することを実証的に検証した。
論文 参考訳(メタデータ) (2023-08-11T13:15:35Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。