論文の概要: Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations
- arxiv url: http://arxiv.org/abs/2502.16169v1
- Date: Sat, 22 Feb 2025 10:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:59.415193
- Title: Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations
- Title(参考訳): 原理のパターン:騒音下でのLLMにおける帰納的推論の脆弱性
- Authors: Chunyang Li, Weiqi Wang, Tianshi Zheng, Yangqiu Song,
- Abstract要約: 本稿では,大言語モデルにおいて,ノイズの多い例で融合したデータからルールを推論する能力を評価するタスクであるRobust Rule Injectionを紹介する。
また,SRR(Sample-steered Rule Refinement)を提案する。
本研究は, LLMの推論に挑戦し, 仮説のドリフトやパターンオーバーフィッティングへの感受性を明らかにし, 人為的誘導システム開発に不可欠な実証的証拠を提供した。
- 参考スコア(独自算出の注目度): 43.491353243991284
- License:
- Abstract: Inductive reasoning, a cornerstone of human cognition, enables generalization from limited data but hasn't yet been fully achieved by large language models (LLMs). While modern LLMs excel at reasoning tasks, their ability to maintain stable and consistent rule abstraction under imperfect observations remains underexplored. To fill this gap, in this work, we introduce Robust Rule Induction, a task that evaluates LLMs' capability in inferring rules from data that are fused with noisy examples. To address this task, we further propose Sample-steered Rule Refinement (SRR), a method enhancing reasoning stability via observation diversification and execution-guided feedback. Experiments across arithmetic, cryptography, and list functions reveal: (1) SRR outperforms other methods with minimal performance degradation under noise; (2) Despite slight accuracy variation, LLMs exhibit instability under noise (e.g., 0% accuracy change with only 70% consistent score); (3) Counterfactual task gaps highlight LLMs' reliance on memorized patterns over genuine abstraction. Our findings challenge LLMs' reasoning robustness, revealing susceptibility to hypothesis drift and pattern overfitting, while providing empirical evidence critical for developing human-like inductive systems. Code and data are available at \href{https://github.com/lcy2723/Robust-Rule-Induction}{https://github.com/lcy2723/Robust-Rule-Induction}.
- Abstract(参考訳): 帰納的推論(inductive reasoning)は、人間の認知の基礎であり、限られたデータから一般化することができるが、大きな言語モデル(LLM)によってはまだ完全には達成されていない。
現代のLSMは推論タスクに長けているが、不完全な観測の下で安定かつ一貫した規則抽象化を維持する能力はいまだ研究されていない。
このギャップを埋めるために、本研究では、ノイズの多い例で融合したデータからルールを推論するLLMの能力を評価するタスクであるRobust Rule Injectionを紹介する。
この課題に対処するために、観測の多様化と実行誘導フィードバックによる安定性の推論方法であるサンプルステアリングルールリファインメント(SRR)をさらに提案する。
1)SRRはノイズ下での性能劣化を最小限に抑えた他の手法よりも優れており、(2)若干の精度変化にもかかわらず、LLMはノイズ下での不安定性を示す(例えば、70%の一貫性スコアで0%の精度変化)。
本研究は, 仮説のドリフトやパターンオーバーフィッティングに対する感受性を明らかにするとともに, 人為的誘導システム開発に不可欠な実証的証拠を提供するとともに, LLMの論理的ロバスト性に挑戦する。
コードとデータは \href{https://github.com/lcy2723/Robust-Rule-Induction}{https://github.com/lcy2723/Robust-Rule-Induction} で公開されている。
関連論文リスト
- SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Investigating the Robustness of Deductive Reasoning with Large Language Models [7.494617747914778]
大規模言語モデル(LLM)は多くの推論に基づく自然言語処理(NLP)タスクにおいて印象的な結果が得られることが示されている。
LLMが、非公式および自己形式化の両方の手法で、どの程度論理的推論タスクに頑健であるかは、まだ不明である。
論文 参考訳(メタデータ) (2025-02-04T17:16:51Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。