Fugu-MT 論文翻訳(概要): Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?

論文の概要: Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?

arxiv url: http://arxiv.org/abs/2404.12728v1
Date: Fri, 19 Apr 2024 09:15:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 15:36:14.888001
Title: Relevant or Random: Can LLMs Truly Perform Analogical Reasoning?
Title（参考訳）: 関連性, ランダム性: LLMはアナロジ的推論を真に達成できるか?
Authors: Chengwei Qin, Wenhan Xia, Tan Wang, Fangkai Jiao, Yuchen Hu, Bosheng Ding, Ruirui Chen, Shafiq Joty,
Abstract要約: アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。 NLPコミュニティはまた、コンテキストにおける自己生成関連例は、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。自己生成したランダムなサンプルが驚くほど高い性能を達成できることを示す。
参考スコア（独自算出の注目度）: 44.158548608820624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Analogical reasoning is a unique ability of humans to address unfamiliar challenges by transferring strategies from relevant past experiences. One key finding in psychology is that compared with irrelevant past experiences, recalling relevant ones can help humans better handle new tasks. Coincidentally, the NLP community has also recently found that self-generating relevant examples in the context can help large language models (LLMs) better solve a given problem than hand-crafted prompts. However, it is yet not clear whether relevance is the key factor eliciting such capability, i.e., can LLMs benefit more from self-generated relevant examples than irrelevant ones? In this work, we systematically explore whether LLMs can truly perform analogical reasoning on a diverse set of reasoning tasks. With extensive experiments and analysis, we show that self-generated random examples can surprisingly achieve comparable or even better performance, e.g., 4% performance boost on GSM8K with random biological examples. We find that the accuracy of self-generated examples is the key factor and subsequently design two improved methods with significantly reduced inference costs. Overall, we aim to advance a deeper understanding of LLM analogical reasoning and hope this work stimulates further research in the design of self-generated contexts.
Abstract（参考訳）: アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。心理学における重要な発見の1つは、無関係な過去の経験と比較すると、関連することを思い出すことは、人間が新しいタスクをよりうまく処理するのに役立つということだ。偶然にも、NLPコミュニティは、コンテキストにおける自己生成関連例が、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。しかし、そのような能力を引き出す重要な要因は関連性なのか、すなわち、LLMは関係のないものよりも自己生成関連例の恩恵を受けることができるのかは、まだ不明である。本研究では,LLMが多種多様な推論タスクにおいて,類推的推論を真に行うことができるかどうかを系統的に検討する。広範囲な実験と分析により, 自己生成ランダムなサンプルは, GSM8K 上での 4% の性能向上など, 驚くほど, あるいはさらに優れた性能を達成できることが示されている。自己生成例の精度が重要な要因であることに気付き、その後、推論コストを大幅に削減した2つの改善手法を設計した。全体として、LLMの類推的推論をより深く理解することを目指しており、この研究が自己生成コンテキストの設計におけるさらなる研究を促進することを願っている。

関連論文リスト

Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.056519816264505]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文参考訳（メタデータ） (2025-02-14T06:05:12Z)
Large Language Models Think Too Fast To Explore Effectively [0.0]
LLM(Large Language Models)は、多くの知的能力を持つ言語である。本研究では,オープンエンドタスクにおいて,LLMが人間を超えることができるかどうかを検討する。
論文参考訳（メタデータ） (2025-01-29T21:51:17Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文参考訳（メタデータ） (2024-10-03T00:09:15Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文参考訳（メタデータ） (2024-02-25T10:13:04Z)
Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-23T22:24:40Z)
AnaloBench: Benchmarking the Identification of Abstract and Long-context Analogies [19.613777134600408]
アナロジー思考は、人間が創造的な方法で問題を解決することを可能にする。言語モデル(LM)も同じことができますか? ベンチマークアプローチは、人間に共通するこの能力の側面に焦点を当てます。
論文参考訳（メタデータ） (2024-02-19T18:56:44Z)
I Learn Better If You Speak My Language: Understanding the Superior Performance of Fine-Tuning Large Language Models with LLM-Generated Responses [23.053791342294268]
LLMによって生成された応答で大きな言語モデル(LLM)を微調整すると、特に推論タスクにおいて、人間によって生成された応答を使用するよりも良い結果が得られることが多い。 LLM生成応答によるトレーニングは、パフォーマンスの向上だけでなく、特定のタスクを微調整した後の他の推論タスクにおけるモデルの能力維持にも役立ちます。
論文参考訳（メタデータ） (2024-02-17T05:05:31Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2023-03-22T22:53:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。