Fugu-MT 論文翻訳(概要): MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models

論文の概要: MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models

arxiv url: http://arxiv.org/abs/2410.09542v1
Date: Sat, 12 Oct 2024 14:12:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 13:55:04.882241
Title: MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models
Title（参考訳）: MIRAGE: 言語モデルにおける帰納的推論プロセスの評価と説明
Authors: Jiachun Li, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao,
Abstract要約: 帰納的および帰納的段階における大規模言語モデルの能力を評価する。モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
参考スコア（独自算出の注目度）: 19.81485079689837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inductive reasoning is an essential capability for large language models (LLMs) to achieve higher intelligence, which requires the model to generalize rules from observed facts and then apply them to unseen examples. We present {\scshape Mirage}, a synthetic dataset that addresses the limitations of previous work, specifically the lack of comprehensive evaluation and flexible test data. In it, we evaluate LLMs' capabilities in both the inductive and deductive stages, allowing for flexible variation in input distribution, task scenario, and task difficulty to analyze the factors influencing LLMs' inductive reasoning. Based on these multi-faceted evaluations, we demonstrate that the LLM is a poor rule-based reasoner. In many cases, when conducting inductive reasoning, they do not rely on a correct rule to answer the unseen case. From the perspectives of different prompting methods, observation numbers, and task forms, models tend to consistently conduct correct deduction without correct inductive rules. Besides, we find that LLMs are good neighbor-based reasoners. In the inductive reasoning process, the model tends to focus on observed facts that are close to the current test example in feature space. By leveraging these similar examples, the model maintains strong inductive capabilities within a localized region, significantly improving its deductive performance.
Abstract（参考訳）: 帰納的推論は、より大きな言語モデル(LLM)がより高い知性を達成するために必須の能力であり、これは観測された事実から規則を一般化し、見知らぬ例に適用するモデルを必要とする。我々は、これまでの作業の限界、特に包括的な評価と柔軟なテストデータの欠如に対処する合成データセットである {\scshape Mirage} を提示する。本研究では, LLMの帰納的および帰納的段階における能力を評価し, 入力分布, タスクシナリオ, タスク難易度を柔軟に変化させることで, LLMの帰納的推論に影響を与える要因を分析する。これらの多面的評価に基づき, LLM はルールベース推論の貧弱さを実証する。多くの場合、帰納的推論を行う場合、それらは目に見えないケースに答えるために正しい規則に依存しない。異なるプロンプト法、観察数、タスクフォームの観点からすると、モデルは正しい帰納規則なしで一貫して正しい推論を行う傾向がある。さらに, LLM は, 隣り合わせの推論系として優れていることがわかった。帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。これらの類似の例を活用することで、モデルは局所化領域内で強い帰納的能力を保ち、その帰納的性能を著しく改善する。

関連論文リスト

Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,大言語モデルにおいて,ノイズの多い例で融合したデータからルールを推論する能力を評価するタスクであるRobust Rule Injectionを紹介する。また,SRR(Sample-steered Rule Refinement)を提案する。本研究は, LLMの推論に挑戦し, 仮説のドリフトやパターンオーバーフィッティングへの感受性を明らかにし, 人為的誘導システム開発に不可欠な実証的証拠を提供した。
論文参考訳（メタデータ） (2025-02-22T10:03:19Z)
InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文参考訳（メタデータ） (2025-02-20T03:48:00Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。 LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文参考訳（メタデータ） (2024-07-31T18:47:11Z)
Case2Code: Learning Inductive Reasoning with Synthetic Data [105.89741089673575]
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。まず、合成したCase2Codeタスクにおける代表LLMを評価し、LLMにおいてケース・ツー・コード誘導が困難であることを実証する。実験結果から,このような帰納的学習は,Case2Codeの性能だけでなく,学習用LLMの各種符号化能力の向上にも寄与することがわかった。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文参考訳（メタデータ） (2024-02-20T12:58:14Z)
Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文参考訳（メタデータ） (2023-10-12T17:51:10Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Can Pretrained Language Models (Yet) Reason Deductively? [72.9103833294272]
PLMの学習可能な推論能力(明示的推論能力)を総合的に評価する。本研究の主目的は, PLMがまだ信頼性の高い導出的推論を行うことができないことである。 PLMは人間レベルの推論能力からは程遠いことがわかりました。
論文参考訳（メタデータ） (2022-10-12T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。