Fugu-MT 論文翻訳(概要): Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

論文の概要: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

arxiv url: http://arxiv.org/abs/2411.00412v4
Date: Fri, 20 Jun 2025 08:54:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 14:57:50.982537
Title: Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
Title（参考訳）: 学習中の適応: 知能ツール利用適応による科学的問題に対するLLMの接地
Authors: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu,
Abstract要約: 大規模言語モデル(LLM)は科学的問題を解決する上で有望な能力を示すが、幻覚の問題に悩まされることが多い。本稿では,AWL(Adapting While Learning)という2成分微調整手法を提案する。最初のコンポーネントであるWorld Knowledge Learning (WKL)では、LLMはツール生成ソリューションから学習することで、科学的知識を内部化する。第2のコンポーネントであるツール・ユース・アダプテーション(TUA)では、モデルの正確性に基づいて、問題を簡単または困難に分類し、難しいツールに切り替えながら、簡単な問題の直接的な推論を維持するように訓練する。
参考スコア（独自算出の注目度）: 39.805610561281455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) demonstrate promising capabilities in solving scientific problems but often suffer from the issue of hallucination. While integrating LLMs with tools can mitigate this issue, models fine-tuned on tool usage become overreliant on them and incur unnecessary costs. Inspired by how human experts assess problem complexity before selecting solutions, we propose a novel two-component fine-tuning method, Adapting While Learning (AWL). In the first component, World Knowledge Learning (WKL), LLMs internalize scientific knowledge by learning from tool-generated solutions. In the second component, Tool Usage Adaptation (TUA), we categorize problems as easy or hard based on the model's accuracy, and train it to maintain direct reasoning for easy problems while switching to tools for hard ones. We validate our method on six scientific benchmark datasets across climate science, epidemiology, physics, and other domains. Compared to the original instruct model (8B), models post-trained with AWL achieve 29.11% higher answer accuracy and 12.72% better tool usage accuracy, even surpassing state-of-the-art models including GPT-4o and Claude-3.5 on four custom-created datasets. Our code is open-source at https://github.com/Rose-STL-Lab/Adapting-While-Learning.
Abstract（参考訳）: 大規模言語モデル(LLM)は科学的問題を解決する上で有望な能力を示すが、幻覚の問題に悩まされることが多い。 LLMとツールを統合することでこの問題を軽減できますが、ツールの使用に微調整されたモデルは、それらに対して過度に依存し、不要なコストを発生させます。人間の専門家が解を選択する前に問題複雑さを評価する方法に触発され、我々は新しい2成分微調整法、Adapting While Learning (AWL)を提案する。最初のコンポーネントであるWorld Knowledge Learning (WKL)では、LLMはツール生成ソリューションから学習することで、科学的知識を内部化する。第2のコンポーネントであるツール・ユース・アダプテーション(TUA)では、モデルの正確性に基づいて、問題を簡単または困難に分類し、難しいツールに切り替えながら、簡単な問題の直接的な推論を維持するように訓練する。気候科学,疫学,物理,その他の領域にわたる6つの科学的ベンチマークデータセットを用いて,本手法を検証した。オリジナルのインストラクトモデル(8B)と比較して、AWLで訓練後、29.11%の回答精度と12.72%のツール使用精度が達成され、GPT-4oやClaude-3.5といった最先端のモデルを4つのカスタムデータセットで上回っている。私たちのコードはhttps://github.com/Rose-STL-Lab/Adapting-While-Learning.orgで公開されている。

関連論文リスト

SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文参考訳（メタデータ） (2025-09-12T02:53:57Z)
Enhancing LLM Tool Use with High-quality Instruction Data from Knowledge Graph [28.06981935713016]
本稿では,知識グラフを用いて,大規模言語モデルのための高品質な命令データを生成する手法を提案する。エンティティ間の関係を実行可能なツールに変換し、各クエリの経路を詳細なソリューションステップに解析します。実験の結果,この合成データの小さなサンプルを微調整することで,LLMのツール利用率や全体的な能力を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2025-06-26T07:45:15Z)
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文参考訳（メタデータ） (2025-05-12T12:48:30Z)
FamilyTool: A Multi-hop Personalized Tool Use Benchmark [94.1158032740113]
ファミリーベースナレッジグラフ(KG)に基づく新しいベンチマークであるFamilyToolを紹介する。 FamilyToolは1から3つのリレーショナルホップにまたがるクエリを伴う大規模言語モデルに挑戦する。実験により、最先端のLCMにおいて大きな性能差が示された。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.844836459291546]
高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文参考訳（メタデータ） (2025-03-09T15:29:46Z)
GenTool: Enhancing Tool Generalization in Language Models through Zero-to-One and Weak-to-Strong Simulation [37.85029997364506]
大規模言語モデル(LLM)は、外部ツールを統合することで、AIアシスタントとしての能力を向上することができる。我々は,ツール利用における多種多様な一般化課題に備えた,新しい学習フレームワークGenToolを提案する。提案手法は,ゼロ・ツー・ワン・ジェネリゼーションと弱・ストロング・ジェネリゼーションという,実世界の応用に不可欠な2つの基本次元に対処する。
論文参考訳（メタデータ） (2025-02-26T09:54:33Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文参考訳（メタデータ） (2024-12-20T02:21:36Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Improving Physics Reasoning in Large Language Models Using Mixture of Refinement Agents [27.112239616508834]
ミキチャー・オブ・リファインメント・エージェント(Mixture of Refinement Agents, MORA)は、大規模言語モデル(LLM)のための新しいエージェント・リファインメント・フレームワークである。 MoRAは、前述の誤りを訂正することで、LLM生成ベースソリューションを反復的に洗練し、その結果、オープンソースのLLMの性能が大幅に向上する。我々は、SciEvalおよびMMLUサブセットに対する我々のアプローチと、我々の物理データセット(PhysicsQA)を評価する。
論文参考訳（メタデータ） (2024-12-01T14:15:55Z)
When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? [15.318301783084681]
大規模言語モデル(LLM)は、トレーニング中に機密情報や有害なコンテンツを不注意に学習し、保持することができる。本稿では,RAG(Retrieval-Augmented Generation)技術に基づく軽量なアンラーニングフレームワークを提案する。われわれはChatGPT, Gemini, Llama-2-7b-chat-hf, PaLM 2 など,オープンソースおよびクローズドソースモデルの広範な実験を通じてフレームワークを評価する。
論文参考訳（メタデータ） (2024-10-20T03:51:01Z)
OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale [16.33736498565436]
本稿では,Large Language Model (LLM) を用いた自然言語記述から線形プログラミング問題の定式化と解法を提案する。本システムでは,数理モデルの開発,ソルバコードの記述とデバッグ,生成したソリューションの評価,モデルとコードの効率性と正確性の向上を実現している。実験によると、OptiMUS-0.3は、簡単なデータセットで12%以上、ハードデータセットで8%以上、既存の最先端メソッドよりも優れています。
論文参考訳（メタデータ） (2024-07-29T01:31:45Z)
Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文参考訳（メタデータ） (2024-06-27T04:42:29Z)
Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文参考訳（メタデータ） (2024-06-07T03:27:51Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models [110.45794710162241]
既存の研究は、事前学習のための大規模な数学関連のテキストを収集したり、巨大な数学問題を合成するために強力なLLMに依存している。そこで本研究では,数学問題合成のための小さなLLMを効率的に学習し,高品質な事前学習データを効率的に生成する手法を提案する。我々は、GPT-4 API 9.3k回の呼び出しと4.6Bデータの事前トレーニングのみを必要とする、JuZhang3.0モデルの事前トレーニングに600万の数学問題を合成する。
論文参考訳（メタデータ） (2024-05-23T09:43:19Z)
PETScML: Second-order solvers for training regression problems in Scientific Machine Learning [0.22499166814992438]
近年、分析のためのデータ駆動ツールとして、科学機械学習の出現を目撃している。我々は、ディープラーニングソフトウェアと従来の機械学習技術とのギャップを埋めるために、Portable and Extensible Toolkit for Scientific計算上に構築されたソフトウェアを紹介します。
論文参考訳（メタデータ） (2024-03-18T18:59:42Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。 MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文参考訳（メタデータ） (2024-02-18T04:19:44Z)
Fast Exact Unlearning for In-Context Learning Data for LLMs [30.06631665962119]
大規模言語モデルでは「微調整データ」を効率的に解き放つことができることを示す。正確な文脈内学習は量子化k-meansで行うことができ、効果的に一定時間非学習操作ができることを示す。
論文参考訳（メタデータ） (2024-02-01T16:43:04Z)
Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文参考訳（メタデータ） (2023-10-16T04:11:19Z)
ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving [170.7899683843177]
ToRAは、難解な数学的問題を解決するために設計されたツール統合推論エージェントのシリーズである。 ToRAモデルは、あらゆるスケールにわたる10の数学的推論データセットで、オープンソースモデルよりも大幅に優れています。 ToRA-Code-34Bは、MATHで50%を超える精度を達成する最初のオープンソースモデルである。
論文参考訳（メタデータ） (2023-09-29T17:59:38Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Minimizing Entropy to Discover Good Solutions to Recurrent Mixed Integer Programs [0.0]
混合整数プログラミング(MIP)問題に対する現在の解法は、幅広い問題に対して良好に動作するように設計されている。近年の研究では、機械学習(ML)をMIPソルバと統合してドメイン知識を注入し、最適性ギャップを効率的に閉じることが示されている。本稿では、エントロピーの概念を用いて、最小限のトレーニングデータとチューニングで効率的にモデルを構築するオンラインソルバを提案する。
論文参考訳（メタデータ） (2022-02-07T18:52:56Z)
Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文参考訳（メタデータ） (2021-03-05T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。