論文の概要: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
- arxiv url: http://arxiv.org/abs/2411.00412v1
- Date: Fri, 01 Nov 2024 07:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:31.520452
- Title: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
- Title(参考訳): 学習中の適応: 知能ツール利用適応による科学的問題に対するLLMの接地
- Authors: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu,
- Abstract要約: LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。
ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。
本稿では,新しい2成分微調整法を提案する。
当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
- 参考スコア(独自算出の注目度): 39.805610561281455
- License:
- Abstract: Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.
- Abstract(参考訳): LLM(Large Language Models)は、単純な科学的問題を解く上で有望な能力を示すが、複雑な問題に対する幻覚を生成することが多い。
LLMとツールを統合することで信頼性が向上するが、このアプローチはツールへの過度な依存を招き、基本的な推論を通じて単純な問題を解決するモデルの能力を低下させる。
対照的に、人間の専門家はまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。
この人間の問題解決プロセスに触発され、我々は新しい2成分微調整法を提案する。
最初のコンポーネントであるWorld Knowledge Distillation (WKD)では、LLMはツールの情報を使って生成したソリューションから直接学習し、ドメイン知識を内部化する。
第2のコンポーネントツール利用適応(TUA)では、モデルの直接応答精度に基づいて、問題を簡単かつ難しいカテゴリに分割する。
WKDと同じアライメントターゲットを維持しながら、より困難な問題に対して、インテリジェントにツール使用に切り替えるようにモデルを訓練します。
提案手法は,6つの科学ベンチマークデータセットを用いて,数学,気候科学,疫学を対象とする検証を行った。
平均して、我々のモデルは回答精度が28.18%改善し、すべてのデータセットでツールの使用精度が13.89%向上し、GPT-4oやClaude-3.5といった最先端モデルを上回った。
関連論文リスト
- Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.566250952750758]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。
付随するDIA-Benchデータセットは、テキスト、PDF、コンパイルされたバイナリ、視覚パズルなど、さまざまなフォーマットで表示される。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale [16.33736498565436]
本稿では,Large Language Model (LLM) を用いた自然言語記述から線形プログラミング問題の定式化と解法を提案する。
本システムでは,数理モデルの開発,ソルバコードの記述とデバッグ,生成したソリューションの評価,モデルとコードの効率性と正確性の向上を実現している。
実験によると、OptiMUS-0.3は、簡単なデータセットで12%以上、ハードデータセットで8%以上、既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-29T01:31:45Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文 参考訳(メタデータ) (2024-06-07T03:27:51Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - PETScML: Second-order solvers for training regression problems in Scientific Machine Learning [0.22499166814992438]
近年、分析のためのデータ駆動ツールとして、科学機械学習の出現を目撃している。
我々は、ディープラーニングソフトウェアと従来の機械学習技術とのギャップを埋めるために、Portable and Extensible Toolkit for Scientific計算上に構築されたソフトウェアを紹介します。
論文 参考訳(メタデータ) (2024-03-18T18:59:42Z) - ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。
ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。
ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文 参考訳(メタデータ) (2023-09-29T17:59:38Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Minimizing Entropy to Discover Good Solutions to Recurrent Mixed Integer
Programs [0.0]
混合整数プログラミング(MIP)問題に対する現在の解法は、幅広い問題に対して良好に動作するように設計されている。
近年の研究では、機械学習(ML)をMIPソルバと統合してドメイン知識を注入し、最適性ギャップを効率的に閉じることが示されている。
本稿では、エントロピーの概念を用いて、最小限のトレーニングデータとチューニングで効率的にモデルを構築するオンラインソルバを提案する。
論文 参考訳(メタデータ) (2022-02-07T18:52:56Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。