論文の概要: LOCA: Logical Chain Augmentation for Scientific Corpus Cleaning
- arxiv url: http://arxiv.org/abs/2510.01249v1
- Date: Wed, 24 Sep 2025 10:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.754513
- Title: LOCA: Logical Chain Augmentation for Scientific Corpus Cleaning
- Title(参考訳): LOCA:サイエンティフィックコーパスクリーニングのための論理的チェーン強化
- Authors: You-Le Fang, Dong-Shan Jian, Xiang Li, Ce Meng, Ling-Shi Meng, Chen-Xu Yan, Zhi-Zhang Bian, Yan-Qing Ma,
- Abstract要約: 科学コーパスを自動浄化する新しいフレームワークであるLOCA(Logical Chain Augmentation)を紹介する。
LOCAの核心は、欠落した論理的なステップを完了し、基礎となる科学原理をその後の導出から明確に分離することで、生の答えを強化することである。
科学コーパスにLOCAを適用することで、ノイズの多いデータセットを自動的にフィルタリングし、エラー率を20%から2%以下に下げることを示した。
- 参考スコア(独自算出の注目度): 3.2128468770849454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) excel in general domains, their reliability often falls short in scientific problem-solving. The advancement of scientific AI depends on large-scale, high-quality corpora. However, existing scientific question-answering (QA) datasets suffer from high error rates, frequently resulting from logical leaps and implicit reasoning within the answers. To address this issue, we introduce LOCA (Logical Chain Augmentation), a novel framework for automatically cleaning scientific corpora, implemented through an augment-and-review loop. At its core, LOCA enhances raw answers by completing missing logical steps and explicitly separating the underlying scientific principle from its subsequent derivation. By applying LOCA to challenging scientific corpora, we demonstrate that it can automatically filter noisy datasets, typically reducing the error rate from as high as 20\% to below 2\%. LOCA provides a scalable and effective methodology for creating high-quality scientific corpora, paving the way for more reliable training and evaluation of scientific AI.
- Abstract(参考訳): LLM(Large Language Models)は一般的なドメインでは優れているが、その信頼性は科学的な問題解決において不足することが多い。
科学AIの進歩は、大規模で高品質なコーパスに依存している。
しかし、既存の科学的質問答え(QA)データセットは高いエラー率に悩まされ、しばしば論理的な飛躍と答え内の暗黙の推論によって生じる。
そこで我々は,科学コーパスを自動的に掃除する新しいフレームワークであるLOCA(Logical Chain Augmentation)を導入する。
LOCAの核心は、欠落した論理的なステップを完了し、基礎となる科学原理をその後の導出から明確に分離することで、生の答えを強化することである。
科学コーパスにLOCAを適用することで、ノイズの多いデータセットを自動的にフィルタリングし、エラー率を最大20 %から2 %以下に下げることを示した。
LOCAは、高品質な科学コーパスを作成するためのスケーラブルで効果的な方法論を提供する。
関連論文リスト
- SimulRAG: Simulator-based RAG for Grounding LLMs in Long-form Scientific QA [35.02813727925432]
大規模言語モデル (LLMs) は科学的問題の解決において有望であることを示す。
科学的な疑問に対する長文の回答を生成するのに役立ちます。
LLMは幻覚に悩まされることが多く、特に長期にわたる科学的な疑問応答の難しい課題に悩まされる。
論文 参考訳(メタデータ) (2025-09-29T20:07:00Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - AI Scientists Fail Without Strong Implementation Capability [33.232300349142285]
人工知能(AI)科学者の出現は、科学的発見のパラダイムシフトを表している。
最近のAI Scientist研究は、独立した科学的発見のための十分な能力を示している。
この大きな進歩にもかかわらず、AI Scientistはコンピュータ科学の分野における画期的な成果をまだ生み出していない。
論文 参考訳(メタデータ) (2025-06-02T06:59:10Z) - PiFlow: Principle-aware Scientific Discovery with Multi-Agent Collaboration [9.216546947535244]
自動科学的発見のための情報理論フレームワークPiFlowを紹介する。
提案手法は,曲線下面積の73.55%増加を反映して,発見効率を著しく向上させる。
全体として、PiFlowはPlug-and-Playメソッドとして機能し、高度に効率的な自動科学的発見における新しいパラダイムシフトを確立する。
論文 参考訳(メタデータ) (2025-05-21T03:09:39Z) - On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Context-Aware Reasoning On Parametric Knowledge for Inferring Causal Variables [49.31233968546582]
本稿では,部分因果グラフの完成を目的とした新しいベンチマークを提案する。
原因と効果の間のバックドア変数を仮説化するLLMの強い能力を示す。
固定された関連性の単純な記憶とは異なり、我々のタスクはグラフ全体のコンテキストに応じてLCMを推論する必要がある。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。
LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。
COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。