論文の概要: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
- arxiv url: http://arxiv.org/abs/2411.00412v2
- Date: Tue, 04 Feb 2025 06:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:01.736250
- Title: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
- Title(参考訳): 学習中の適応: 知能ツール利用適応による科学的問題に対するLLMの接地
- Authors: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu,
- Abstract要約: 大規模言語モデル(LLM)は、単純な科学的問題を解決する上で有望な能力を示すが、ドメイン固有の微調整でさえも、複雑な言語に対する幻覚を生み出すことが多い。
本稿では,AWL(Adapting While Learning)という2成分微調整手法を提案する。
最初のコンポーネントであるWorld Knowledge Learning (WKL)では、LLMはツール生成ソリューションから学習することで、科学的知識を内部化する。
第2のコンポーネントであるツール・ユース・アダプテーション(TUA)では、WKL学習モデルの精度に基づいて質問を簡単または困難に分類し、ツールに切り替えながら簡単な問題に対する直接的な推論を維持するよう訓練する。
- 参考スコア(独自算出の注目度): 39.805610561281455
- License:
- Abstract: Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but, even with domain-specific fine-tuning, often produce hallucinations for complex ones. While integrating LLMs with tools can mitigate this reliability issue, models finetuned on tool usage only often over-rely on them, incurring unnecessary costs from resource-intensive scientific tools even for simpler problems. Inspired by how human experts assess the complexity of the problem before choosing the solutions, we propose a novel two-component fine-tuning method, Adapting While Learning (AWL). In the first component, World Knowledge Learning (WKL), LLMs internalize scientific knowledge by learning from tools-generated solutions. In the second component, Tool Usage Adaptation (TUA), we classify questions as easy or hard based on the WKL-trained model's accuracy, and train it to maintain direct reasoning for simple problems while switching to tools for challenging ones. We validate our method on 6 scientific benchmark datasets in climate science, epidemiology, and mathematics. Compared to the base 8B model, our trained models achieve 28.27% higher answer accuracy and 13.76% better tool usage accuracy, even surpassing state-of-the-art models including GPT-4 and Claude-3.5 on 4 custom-created datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単純な科学的問題を解決する上で有望な能力を示すが、ドメイン固有の微調整でさえも、複雑な言語に対する幻覚を生み出すことが多い。
LLMをツールと統合することは、この信頼性の問題を軽減することができるが、ツールの使用量によって微調整されるモデルは、単純な問題であっても、リソース集約的な科学ツールから不要なコストを発生させる。
人間の専門家が解を選ぶ前に問題の複雑さを評価する方法に触発され、我々は新しい2成分微調整法、Adapting While Learning (AWL)を提案する。
最初のコンポーネントであるWorld Knowledge Learning (WKL)では、LLMはツール生成ソリューションから学習することで、科学的知識を内部化する。
第2のコンポーネントであるツール・ユース・アダプテーション(TUA)では、WKLで訓練されたモデルの精度に基づいて質問を簡単あるいは困難に分類し、簡単な問題に対する直接的な推論を維持しながら、挑戦するツールに切り替えるように訓練する。
気候科学,疫学,数学の6つの科学的ベンチマークデータセットを用いて,本手法の有効性を検証した。
ベース8Bモデルと比較して、トレーニングされたモデルでは、回答精度が28.27%、ツール使用精度が13.76%向上し、4つのカスタム作成データセットでGPT-4やClaude-3.5といった最先端モデルを超えています。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving [1.5106583432923495]
本稿では,最新のLLMの性能を評価するための新しい評価手法であるLLM-ProSを提案する。
2011年から2024年までの166のワールドファイナル問題のデータセットを使用して、モデルの推論、正確性、効率をベンチマークします。
この結果から,新しい問題を一般化し,適応し,解決するモデルの能力に有意な差異が認められた。
論文 参考訳(メタデータ) (2025-02-04T18:55:14Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents [27.112239616508834]
ミキチャー・オブ・リファインメント・エージェント(Mixture of Refinement Agents, MORA)は、大規模言語モデル(LLM)のための新しいエージェント・リファインメント・フレームワークである。
MoRAは、前述の誤りを訂正することで、LLM生成ベースソリューションを反復的に洗練し、その結果、オープンソースのLLMの性能が大幅に向上する。
我々は、SciEvalおよびMMLUサブセットに対する我々のアプローチと、我々の物理データセット(PhysicsQA)を評価する。
論文 参考訳(メタデータ) (2024-12-01T14:15:55Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - PETScML: Second-order solvers for training regression problems in Scientific Machine Learning [0.22499166814992438]
近年、分析のためのデータ駆動ツールとして、科学機械学習の出現を目撃している。
我々は、ディープラーニングソフトウェアと従来の機械学習技術とのギャップを埋めるために、Portable and Extensible Toolkit for Scientific計算上に構築されたソフトウェアを紹介します。
論文 参考訳(メタデータ) (2024-03-18T18:59:42Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。
この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。
約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。
MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文 参考訳(メタデータ) (2024-02-18T04:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。