論文の概要: Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya
- arxiv url: http://arxiv.org/abs/2604.04937v1
- Date: Sat, 14 Feb 2026 23:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.356623
- Title: Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya
- Title(参考訳): Pramana: Navya-Nyayaを通したてんかん治療のための微調整大言語モデル
- Authors: Sharath Sathish,
- Abstract要約: 大規模な言語モデルは、流動的なテキストを生成するが、体系的な推論に苦労する。
Appleの研究者が無関係なコンテキストを追加すると、LLMのパフォーマンスは65%低下した。
トレーサブルエビデンスにおけるこの主張を根拠にできないことは、正当化を必要とする領域におけるAIの信頼性を制限します。
2500年前のインドの推論フレームワークであるPramanaの微調整について紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models produce fluent text but struggle with systematic reasoning, often hallucinating confident but unfounded claims. When Apple researchers added irrelevant context to mathematical problems, LLM performance degraded by 65% Apple Machine Learning Research, exposing brittle pattern-matching beneath apparent reasoning. This epistemic gap, the inability to ground claims in traceable evidence, limits AI reliability in domains requiring justification. We introduce Pramana, a novel approach that teaches LLMs explicit epistemological methodology by fine-tuning on Navya-Nyaya logic, a 2,500-year-old Indian reasoning framework. Unlike generic chain-of-thought prompting, Navya-Nyaya enforces structured 6-phase reasoning: SAMSHAYA (doubt analysis), PRAMANA (evidence source identification), PANCHA AVAYAVA (5-member syllogism with universal rules), TARKA (counterfactual verification), HETVABHASA (fallacy detection), and NIRNAYA (ascertainment distinguishing knowledge from hypothesis). This integration of logic and epistemology provides cognitive scaffolding absent from standard reasoning approaches. We fine-tune Llama 3.2-3B and DeepSeek-R1-Distill-Llama-8B on 55 Nyaya-structured logical problems (constraint satisfaction, Boolean SAT, multi-step deduction). Stage 1 achieves 100% semantic correctness on held-out evaluation despite only 40% strict format adherence revealing that models internalize reasoning content even when structural enforcement is imperfect. Ablation studies show format prompting and temperature critically affect performance, with optimal configurations differing by stage. We release all models, datasets, and training infrastructure on Hugging Face to enable further research on epistemic frameworks for AI reasoning.
- Abstract(参考訳): 大規模な言語モデルは、流動的なテキストを生成するが、体系的な推論に苦慮し、しばしば自信あるが根拠のない主張を幻覚させる。
Appleの研究者たちが数学的問題に無関係なコンテキストを追加すると、LLMのパフォーマンスは65%低下し、明らかな推論の下にある脆いパターンマッチングが明らかになった。
この疫学的なギャップ、トレーサブルな証拠の主張を根拠にできないことは、正当化を必要とする領域におけるAIの信頼性を制限する。
2500年前のインドの推論フレームワークであるNavala-Nyaya論理を微調整し,LLMの明示的な認識論的方法論を教える新しいアプローチであるPranaを紹介した。
一般的なチェーン・オブ・シンセサイティングとは異なり、Navala-Nyayaは、SAMSHAYA(疑似分析)、PRAMANA(証拠情報源同定)、PANCHA AVAYAVA(普遍規則付き5員のシロジズム)、TARKA(偽検証)、HETVABHASA(誤検出)、NIRNAYA(仮説と知識を区別する確認)という、構造化された6相推論を施行している。
この論理学と認識学の統合は、標準的な推論アプローチを欠いた認知的足場を提供する。
Llama 3.2-3BとDeepSeek-R1-Distill-Llama-8Bを55のニヤヤ構造論理問題(制約満足度,ブールSAT,マルチステップ推論)で微調整する。
ステージ1は、構造的強制が不完全である場合でも、モデルが推論内容を内部化することを示す厳密な形式順守のわずか40%にもかかわらず、ホールトアウト評価において100%の意味的正当性を達成する。
アブレーション研究は、フォーマットのプロンプトと温度がパフォーマンスに重大な影響を与え、最適な構成はステージによって異なることを示している。
私たちはHugging Face上ですべてのモデル、データセット、トレーニングインフラストラクチャをリリースし、AI推論のための疫学フレームワークに関するさらなる研究を可能にします。
関連論文リスト
- Don't Judge a Book by its Cover: Testing LLMs' Robustness Under Logical Obfuscation [3.9997332571742934]
我々は、4つの推論タスクにまたがる1,108の質問を伴う、第一種診断ベンチマークであるLogiQAteを提示する。
難読化はゼロショット性能を著しく低下させ, GPT-4oでは平均47%, GPT-5では27%, 推論モデルでは22%, o4-miniで平均47%低下した。
論文 参考訳(メタデータ) (2026-02-01T10:04:22Z) - Training LLMs with LogicReward for Faithful and Rigorous Reasoning [75.30425553246177]
定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。
LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
論文 参考訳(メタデータ) (2025-12-20T03:43:02Z) - Addressing Logical Fallacies In Scientific Reasoning From Large Language Models: Towards a Dual-Inference Training Framework [0.13854111346209866]
大規模言語モデル(LLM)は自然言語処理を変革し、科学、医療、意思決定の進歩への期待が高まっている。
本稿は,2つのコントリビューションを行う。まず,主要なプラットフォームから存在するLCMが,否定や反例,あるいは欠陥のある前提で科学的領域を推論する際に,体系的な弱点を示すことを示す。
第二に、肯定生成と構造化反事実否定を統合する二重推論トレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-03T19:50:39Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - Towards Solving More Challenging IMO Problems via Decoupled Reasoning and Proving [48.22540519786074]
最近の研究では、非公式な精度は80%を超え、公式な成功はPutnamBenchのようなベンチマークで8%以下である。
低レベルの証明生成から高レベルの推論を分離する新しいフレームワークを提案する。
提案手法は,2000年以降のIMO問題に対して,従来のオープンソース証明者が未報告の課題として評価した。
論文 参考訳(メタデータ) (2025-07-07T22:38:49Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。