論文の概要: Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?
- arxiv url: http://arxiv.org/abs/2404.12728v2
- Date: Sun, 23 Jun 2024 05:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:02:45.392693
- Title: Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?
- Title(参考訳): 関連性, ランダム性: LLMはアナロジ的推論を真に達成できるか?
- Authors: Chengwei Qin, Wenhan Xia, Tan Wang, Fangkai Jiao, Yuchen Hu, Bosheng Ding, Ruirui Chen, Shafiq Joty,
- Abstract要約: アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。
NLPコミュニティはまた、コンテキストにおける自己生成関連例は、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。
自己生成したランダムなサンプルが驚くほど高い性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 44.158548608820624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analogical reasoning is a unique ability of humans to address unfamiliar challenges by transferring strategies from relevant past experiences. One key finding in psychology is that compared with irrelevant past experiences, recalling relevant ones can help humans better handle new tasks. Coincidentally, the NLP community has also recently found that self-generating relevant examples in the context can help large language models (LLMs) better solve a given problem than hand-crafted prompts. However, it is yet not clear whether relevance is the key factor eliciting such capability, i.e., can LLMs benefit more from self-generated relevant examples than irrelevant ones? In this work, we systematically explore whether LLMs can truly perform analogical reasoning on a diverse set of reasoning tasks. With extensive experiments and analysis, we show that self-generated random examples can surprisingly achieve comparable or even better performance, e.g., 4% performance boost on GSM8K with random biological examples. We find that the accuracy of self-generated examples is the key factor and subsequently design two improved methods with significantly reduced inference costs. Overall, we aim to advance a deeper understanding of LLM analogical reasoning and hope this work stimulates further research in the design of self-generated contexts.
- Abstract(参考訳): アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。
心理学における重要な発見の1つは、無関係な過去の経験と比較すると、関連することを思い出すことは、人間が新しいタスクをよりうまく処理するのに役立つということだ。
偶然にも、NLPコミュニティは、コンテキストにおける自己生成関連例が、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。
しかし、そのような能力を引き出す重要な要因は関連性なのか、すなわち、LLMは関係のないものよりも自己生成関連例の恩恵を受けることができるのかは、まだ不明である。
本研究では,LLMが多種多様な推論タスクにおいて,類推的推論を真に行うことができるかどうかを系統的に検討する。
広範囲な実験と分析により, 自己生成ランダムなサンプルは, GSM8K 上での 4% の性能向上など, 驚くほど, あるいはさらに優れた性能を達成できることが示されている。
自己生成例の精度が重要な要因であることに気付き、その後、推論コストを大幅に削減した2つの改善手法を設計した。
全体として、LLMの類推的推論をより深く理解することを目指しており、この研究が自己生成コンテキストの設計におけるさらなる研究を促進することを願っている。
関連論文リスト
- A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。
LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。
これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文 参考訳(メタデータ) (2024-05-28T22:33:02Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - AnaloBench: Benchmarking the Identification of Abstract and Long-context
Analogies [20.35137053775108]
アナロジー思考は、人間が創造的な方法で問題を解決し、難しい概念を把握し、より効果的にアイデアを表現できるようにする。
言語モデル(LM)における類似推論能力を決定するベンチマークAnALOBENCHを提案する。
我々のベンチマーク手法は、人間に共通するこの能力の側面に焦点を当てている: (i) 大量の情報から関連する経験を思い出し、 (ii) 複雑で長いシナリオに類推的推論を適用する。
論文 参考訳(メタデータ) (2024-02-19T18:56:44Z) - I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses [23.053791342294268]
LLMによって生成された反応で大きな言語モデル(LLM)を微調整すると、人間によって生成された反応よりも良い結果が得られることが多い。
LLM生成応答によるトレーニングは、パフォーマンスを高めるだけでなく、特定のタスクを微調整した後、他のタスクにおけるモデルの能力を維持するのにも役立ちます。
論文 参考訳(メタデータ) (2024-02-17T05:05:31Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。