論文の概要: Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?
- arxiv url: http://arxiv.org/abs/2404.12728v1
- Date: Fri, 19 Apr 2024 09:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:36:14.888001
- Title: Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?
- Title(参考訳): 関連性, ランダム性: LLMはアナロジ的推論を真に達成できるか?
- Authors: Chengwei Qin, Wenhan Xia, Tan Wang, Fangkai Jiao, Yuchen Hu, Bosheng Ding, Ruirui Chen, Shafiq Joty,
- Abstract要約: アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。
NLPコミュニティはまた、コンテキストにおける自己生成関連例は、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。
自己生成したランダムなサンプルが驚くほど高い性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 44.158548608820624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analogical reasoning is a unique ability of humans to address unfamiliar challenges by transferring strategies from relevant past experiences. One key finding in psychology is that compared with irrelevant past experiences, recalling relevant ones can help humans better handle new tasks. Coincidentally, the NLP community has also recently found that self-generating relevant examples in the context can help large language models (LLMs) better solve a given problem than hand-crafted prompts. However, it is yet not clear whether relevance is the key factor eliciting such capability, i.e., can LLMs benefit more from self-generated relevant examples than irrelevant ones? In this work, we systematically explore whether LLMs can truly perform analogical reasoning on a diverse set of reasoning tasks. With extensive experiments and analysis, we show that self-generated random examples can surprisingly achieve comparable or even better performance, e.g., 4% performance boost on GSM8K with random biological examples. We find that the accuracy of self-generated examples is the key factor and subsequently design two improved methods with significantly reduced inference costs. Overall, we aim to advance a deeper understanding of LLM analogical reasoning and hope this work stimulates further research in the design of self-generated contexts.
- Abstract(参考訳): アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。
心理学における重要な発見の1つは、無関係な過去の経験と比較すると、関連することを思い出すことは、人間が新しいタスクをよりうまく処理するのに役立つということだ。
偶然にも、NLPコミュニティは、コンテキストにおける自己生成関連例が、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。
しかし、そのような能力を引き出す重要な要因は関連性なのか、すなわち、LLMは関係のないものよりも自己生成関連例の恩恵を受けることができるのかは、まだ不明である。
本研究では,LLMが多種多様な推論タスクにおいて,類推的推論を真に行うことができるかどうかを系統的に検討する。
広範囲な実験と分析により, 自己生成ランダムなサンプルは, GSM8K 上での 4% の性能向上など, 驚くほど, あるいはさらに優れた性能を達成できることが示されている。
自己生成例の精度が重要な要因であることに気付き、その後、推論コストを大幅に削減した2つの改善手法を設計した。
全体として、LLMの類推的推論をより深く理解することを目指しており、この研究が自己生成コンテキストの設計におけるさらなる研究を促進することを願っている。
関連論文リスト
- Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs [7.100094213474042]
大規模言語モデル (LLM) は、テキストの理解と人間に似たテキストの生成において、顕著な熟練性を示している。
LLMは、代表性と呼ばれる人間の意思決定において共通の認知的罠の影響を受ける可能性がある。
論文 参考訳(メタデータ) (2024-04-01T20:15:06Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - AnaloBench: Benchmarking the Identification of Abstract and Long-context
Analogies [20.35137053775108]
アナロジー思考は、人間が創造的な方法で問題を解決し、難しい概念を把握し、より効果的にアイデアを表現できるようにする。
言語モデル(LM)における類似推論能力を決定するベンチマークAnALOBENCHを提案する。
我々のベンチマーク手法は、人間に共通するこの能力の側面に焦点を当てている: (i) 大量の情報から関連する経験を思い出し、 (ii) 複雑で長いシナリオに類推的推論を適用する。
論文 参考訳(メタデータ) (2024-02-19T18:56:44Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - SELF-EXPLAIN: Teaching Large Language Models to Reason Complex Questions
by Themselves [9.68886683868545]
本研究では,大規模言語モデル(LLM)が人為的な実演を伴わずに理性を教えることができるかどうかを考察する。
人間の記憶検索における「符号化特異性」にインスパイアされたLLMを用いて,SELF-EXPLAINを用いてCoTのサンプルを生成する。
自己説明を用いることで、LLMはより自信を持ち、より校正され、複雑な質問に答えるときにバイアスが少なくなる。
論文 参考訳(メタデータ) (2023-11-12T23:14:43Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。