論文の概要: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
- arxiv url: http://arxiv.org/abs/2411.00412v1
- Date: Fri, 01 Nov 2024 07:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:31.520452
- Title: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
- Title(参考訳): 学習中の適応: 知能ツール利用適応による科学的問題に対するLLMの接地
- Authors: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu,
- Abstract要約: LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。
ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。
本稿では,新しい2成分微調整法を提案する。
当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
- 参考スコア(独自算出の注目度): 39.805610561281455
- License:
- Abstract: Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.
- Abstract(参考訳): LLM(Large Language Models)は、単純な科学的問題を解く上で有望な能力を示すが、複雑な問題に対する幻覚を生成することが多い。
LLMとツールを統合することで信頼性が向上するが、このアプローチはツールへの過度な依存を招き、基本的な推論を通じて単純な問題を解決するモデルの能力を低下させる。
対照的に、人間の専門家はまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。
この人間の問題解決プロセスに触発され、我々は新しい2成分微調整法を提案する。
最初のコンポーネントであるWorld Knowledge Distillation (WKD)では、LLMはツールの情報を使って生成したソリューションから直接学習し、ドメイン知識を内部化する。
第2のコンポーネントツール利用適応(TUA)では、モデルの直接応答精度に基づいて、問題を簡単かつ難しいカテゴリに分割する。
WKDと同じアライメントターゲットを維持しながら、より困難な問題に対して、インテリジェントにツール使用に切り替えるようにモデルを訓練します。
提案手法は,6つの科学ベンチマークデータセットを用いて,数学,気候科学,疫学を対象とする検証を行った。
平均して、我々のモデルは回答精度が28.18%改善し、すべてのデータセットでツールの使用精度が13.89%向上し、GPT-4oやClaude-3.5といった最先端モデルを上回った。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving [1.5106583432923495]
本稿では,最新のLLMの性能を評価するための新しい評価手法であるLLM-ProSを提案する。
2011年から2024年までの166のワールドファイナル問題のデータセットを使用して、モデルの推論、正確性、効率をベンチマークします。
この結果から,新しい問題を一般化し,適応し,解決するモデルの能力に有意な差異が認められた。
論文 参考訳(メタデータ) (2025-02-04T18:55:14Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents [27.112239616508834]
ミキチャー・オブ・リファインメント・エージェント(Mixture of Refinement Agents, MORA)は、大規模言語モデル(LLM)のための新しいエージェント・リファインメント・フレームワークである。
MoRAは、前述の誤りを訂正することで、LLM生成ベースソリューションを反復的に洗練し、その結果、オープンソースのLLMの性能が大幅に向上する。
我々は、SciEvalおよびMMLUサブセットに対する我々のアプローチと、我々の物理データセット(PhysicsQA)を評価する。
論文 参考訳(メタデータ) (2024-12-01T14:15:55Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - PETScML: Second-order solvers for training regression problems in Scientific Machine Learning [0.22499166814992438]
近年、分析のためのデータ駆動ツールとして、科学機械学習の出現を目撃している。
我々は、ディープラーニングソフトウェアと従来の機械学習技術とのギャップを埋めるために、Portable and Extensible Toolkit for Scientific計算上に構築されたソフトウェアを紹介します。
論文 参考訳(メタデータ) (2024-03-18T18:59:42Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。
この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。
約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。
MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文 参考訳(メタデータ) (2024-02-18T04:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。