論文の概要: ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark
- arxiv url: http://arxiv.org/abs/2501.01290v1
- Date: Thu, 02 Jan 2025 15:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:46.313111
- Title: ToolComp: A Multi-Tool Reasoning & Process Supervision Benchmark
- Title(参考訳): ToolComp: マルチツール推論とプロセススーパービジョンベンチマーク
- Authors: Vaskar Nath, Pranav Raja, Claire Yoon, Sean Hendryx,
- Abstract要約: マルチステップのツール使用推論を評価するためのベンチマークであるToolCompを紹介する。
ToolCompはモデルと人間のアノテータのコラボレーションによって開発されている。
我々は、結果教師付き報酬モデルとプロセス教師付き報酬モデルのパフォーマンスを比較するために、合成トレーニングデータを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Despite recent advances in AI, the development of systems capable of executing complex, multi-step reasoning tasks involving multiple tools remains a significant challenge. Current benchmarks fall short in capturing the real-world complexity of tool-use reasoning, where verifying the correctness of not only the final answer but also the intermediate steps is important for evaluation, development, and identifying failures during inference time. To bridge this gap, we introduce ToolComp, a comprehensive benchmark designed to evaluate multi-step tool-use reasoning. ToolComp is developed through a collaboration between models and human annotators, featuring human-edited/verified prompts, final answers, and process supervision labels, allowing for the evaluation of both final outcomes and intermediate reasoning. Evaluation across six different model families demonstrates the challenging nature of our dataset, with the majority of models achieving less than 50% accuracy. Additionally, we generate synthetic training data to compare the performance of outcome-supervised reward models (ORMs) with process-supervised reward models (PRMs) to assess their ability to improve complex tool-use reasoning as evaluated by ToolComp. Our results show that PRMs generalize significantly better than ORMs, achieving a 19% and 11% improvement in rank@1 accuracy for ranking base and fine-tuned model trajectories, respectively. These findings highlight the critical role of process supervision in both the evaluation and training of AI models, paving the way for more robust and capable systems in complex, multi-step tool-use tasks.
- Abstract(参考訳): AIの最近の進歩にもかかわらず、複数のツールを含む複雑な多段階推論タスクを実行することができるシステムの開発は大きな課題である。
現在のベンチマークは、最終回答だけでなく中間ステップの正しさを検証するツール利用推論の現実的な複雑さを捉えるのに不足している。
このギャップを埋めるために、多段階のツール使用推論を評価するために設計された包括的なベンチマークであるToolCompを紹介する。
ToolCompは、人間によって編集/検証されたプロンプト、最終回答、プロセス監督ラベルを特徴とするモデルと人間のアノテーションのコラボレーションによって開発され、最終的な結果と中間推論の両方を評価することができる。
6つの異なるモデルファミリに対する評価は、データセットの難易度を示し、ほとんどのモデルが50%未満の精度で達成している。
さらに,結果教師付き報酬モデル(ORM)とプロセス教師付き報酬モデル(PRM)のパフォーマンスを比較し,ツールコンプットによる複雑なツール利用推論を改善する能力を評価するために,合成トレーニングデータを生成した。
以上の結果から, PRMはORMよりも大幅に向上し, ランキングベースと微調整モデルトラジェクトリのランク@1精度が19%, 11%向上した。
これらの知見は、AIモデルの評価とトレーニングにおけるプロセス監督の重要な役割を強調し、複雑で多段階のツール使用タスクにおいて、より堅牢で有能なシステムを実現する。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Evaluating the Impact of Advanced LLM Techniques on AI-Lecture Tutors for a Robotics Course [0.35132421583441026]
本研究では,大規模言語モデル(LLM)を人工知能を用いた大学授業用チューターとして評価する。
特に、プロンプトエンジニアリング、Retrieval-Augmented-Generation (RAG)、ファインチューニングなど、様々な高度な技術が利用されている。
以上の結果から,RAGと迅速なエンジニアリングを組み合わせることで,モデル応答が大幅に向上し,より優れた事実解が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-02T19:49:19Z) - LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large
Language Models [31.426274932333264]
自動側評価から結果をインタラクティブに分析する新しいビジュアル分析ツールであるComparatorを提案する。
このツールは、モデルがベースラインモデルよりも優れているか悪いかを、ユーザがいつ、なぜ理解するかを対話的にサポートする。
論文 参考訳(メタデータ) (2024-02-16T09:14:49Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision [40.984680166762345]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。