Fugu-MT 論文翻訳(概要): Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

論文の概要: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

arxiv url: http://arxiv.org/abs/2411.00412v1
Date: Fri, 01 Nov 2024 07:18:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.223053
Title: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
Title（参考訳）: 学習中の適応: 知能ツール利用適応による科学的問題に対するLLMの接地
Authors: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu,
Abstract要約: LLM(Large Language Models)は、単純な科学的問題を解決する上で有望な能力を示す。ヒューマンエキスパートはまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。本稿では,新しい2成分微調整法を提案する。当社のモデルでは,回答精度が28.18%向上し,すべてのデータセットでツール使用精度が13.89%向上した。
参考スコア（独自算出の注目度）: 39.805610561281455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.
Abstract（参考訳）: LLM(Large Language Models)は、単純な科学的問題を解く上で有望な能力を示すが、複雑な問題に対する幻覚を生成することが多い。 LLMとツールを統合することで信頼性が向上するが、このアプローチはツールへの過度な依存を招き、基本的な推論を通じて単純な問題を解決するモデルの能力を低下させる。対照的に、人間の専門家はまず、適切なソリューションアプローチを選択する前に、ドメイン知識を使用して問題複雑さを評価する。この人間の問題解決プロセスに触発され、我々は新しい2成分微調整法を提案する。最初のコンポーネントであるWorld Knowledge Distillation (WKD)では、LLMはツールの情報を使って生成したソリューションから直接学習し、ドメイン知識を内部化する。第2のコンポーネントツール利用適応(TUA)では、モデルの直接応答精度に基づいて、問題を簡単かつ難しいカテゴリに分割する。 WKDと同じアライメントターゲットを維持しながら、より困難な問題に対して、インテリジェントにツール使用に切り替えるようにモデルを訓練します。提案手法は,6つの科学ベンチマークデータセットを用いて,数学,気候科学,疫学を対象とする検証を行った。平均して、我々のモデルは回答精度が28.18%改善し、すべてのデータセットでツールの使用精度が13.89%向上し、GPT-4oやClaude-3.5といった最先端モデルを上回った。

関連論文リスト

FamilyTool: A Multi-hop Personalized Tool Use Benchmark [94.1158032740113]
ファミリーベースナレッジグラフ(KG)に基づく新しいベンチマークであるFamilyToolを紹介する。 FamilyToolは1から3つのリレーショナルホップにまたがるクエリを伴う大規模言語モデルに挑戦する。実験により、最先端のLCMにおいて大きな性能差が示された。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
GenTool: Enhancing Tool Generalization in Language Models through Zero-to-One and Weak-to-Strong Simulation [37.85029997364506]
大規模言語モデル(LLM)は、外部ツールを統合することで、AIアシスタントとしての能力を向上することができる。我々は,ツール利用における多種多様な一般化課題に備えた,新しい学習フレームワークGenToolを提案する。提案手法は,ゼロ・ツー・ワン・ジェネリゼーションと弱・ストロング・ジェネリゼーションという,実世界の応用に不可欠な2つの基本次元に対処する。
論文参考訳（メタデータ） (2025-02-26T09:54:33Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents [27.112239616508834]
ミキチャー・オブ・リファインメント・エージェント(Mixture of Refinement Agents, MORA)は、大規模言語モデル(LLM)のための新しいエージェント・リファインメント・フレームワークである。 MoRAは、前述の誤りを訂正することで、LLM生成ベースソリューションを反復的に洗練し、その結果、オープンソースのLLMの性能が大幅に向上する。我々は、SciEvalおよびMMLUサブセットに対する我々のアプローチと、我々の物理データセット(PhysicsQA)を評価する。
論文参考訳（メタデータ） (2024-12-01T14:15:55Z)
OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale [16.33736498565436]
本稿では,Large Language Model (LLM) を用いた自然言語記述から線形プログラミング問題の定式化と解法を提案する。本システムでは,数理モデルの開発,ソルバコードの記述とデバッグ,生成したソリューションの評価,モデルとコードの効率性と正確性の向上を実現している。実験によると、OptiMUS-0.3は、簡単なデータセットで12%以上、ハードデータセットで8%以上、既存の最先端メソッドよりも優れています。
論文参考訳（メタデータ） (2024-07-29T01:31:45Z)
Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文参考訳（メタデータ） (2024-06-27T04:42:29Z)
Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文参考訳（メタデータ） (2024-06-07T03:27:51Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
PETScML: Second-order solvers for training regression problems in Scientific Machine Learning [0.22499166814992438]
近年、分析のためのデータ駆動ツールとして、科学機械学習の出現を目撃している。我々は、ディープラーニングソフトウェアと従来の機械学習技術とのギャップを埋めるために、Portable and Extensible Toolkit for Scientific計算上に構築されたソフトウェアを紹介します。
論文参考訳（メタデータ） (2024-03-18T18:59:42Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。 MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文参考訳（メタデータ） (2024-02-18T04:19:44Z)
Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文参考訳（メタデータ） (2023-10-16T04:11:19Z)
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文参考訳（メタデータ） (2023-09-29T17:59:38Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Minimizing Entropy to Discover Good Solutions to Recurrent Mixed Integer Programs [0.0]
混合整数プログラミング(MIP)問題に対する現在の解法は、幅広い問題に対して良好に動作するように設計されている。近年の研究では、機械学習(ML)をMIPソルバと統合してドメイン知識を注入し、最適性ギャップを効率的に閉じることが示されている。本稿では、エントロピーの概念を用いて、最小限のトレーニングデータとチューニングで効率的にモデルを構築するオンラインソルバを提案する。
論文参考訳（メタデータ） (2022-02-07T18:52:56Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。