論文の概要: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
- arxiv url: http://arxiv.org/abs/2310.10062v2
- Date: Thu, 28 Dec 2023 15:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:13:46.085057
- Title: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
- Title(参考訳): ツール支援生成戦略の包括的評価
- Authors: Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd
Bohnet, Mor Geva
- Abstract要約: ますます多くの研究が、その欠点を克服するためのツールによる言語モデルの拡張を調査している。
様々なツール利用戦略が提案されているが、体系的かつ公正な比較は行われていない。
私たちの発見は、少数ショットツールの統合が依然としてオープンな課題であることを示している。
- 参考スコア(独自算出の注目度): 39.30954697422296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing area of research investigates augmenting language models with tools
(e.g., search engines, calculators) to overcome their shortcomings (e.g.,
missing or incorrect knowledge, incorrect logical inferences). Various few-shot
tool-usage strategies have been proposed. However, there is no systematic and
fair comparison across different strategies, or between these strategies and
strong baselines that do not leverage tools. We conduct an extensive empirical
analysis, finding that (1) across various datasets, example difficulty levels,
and models, strong no-tool baselines are competitive to tool-assisted
strategies, implying that effectively using tools with in-context
demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval
tasks, strategies that *refine* incorrect outputs with tools outperform
strategies that retrieve relevant information *ahead of* or *during
generation*; (3) tool-assisted strategies are expensive in the number of tokens
they require to work -- incurring additional costs by orders of magnitude --
which does not translate into significant improvement in performance. Overall,
our findings suggest that few-shot tool integration is still an open challenge,
emphasizing the need for comprehensive evaluations of future strategies to
accurately assess their *benefits* and *costs*.
- Abstract(参考訳): 研究領域の増大は、ツール(検索エンジン、電卓など)で言語モデルを強化し、その欠点(例えば、誤った知識、誤った論理的推論)を克服する。
様々なツール利用戦略が提案されている。
しかし、異なる戦略、あるいはこれらの戦略とツールを使わない強力なベースラインの間に、体系的かつ公平な比較は存在しない。
We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -which does not translate into significant improvement in performance.
全体としては、少額のツール統合は依然としてオープンな課題であり、彼らの*便益*と*コスト*を正確に評価する今後の戦略の包括的な評価の必要性を強調しています。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Does the Tool Matter? Exploring Some Causes of Threats to Validity in Mining Software Repositories [9.539825294372786]
10の大規模なソフトウェアプロジェクトを抽出し分析するために、2つのツールを使用します。
同様の傾向にもかかわらず、コミット数や開発者の数のような単純なメトリクスでさえ、最大500%の違いがある。
このような大きな違いは、しばしば小さな技術的な詳細によって引き起こされる。
論文 参考訳(メタデータ) (2025-01-25T07:42:56Z) - How Developers Choose Debugging Strategies for Challenging Web Application Defects [9.00716644826864]
本研究では,複雑なシナリオにおける戦略選択に影響を与える要因について検討する。
その結果、文脈要因は複雑な方法で相互作用し、要因の組み合わせは戦略選択に影響を及ぼすことがわかった。
この結果から,挑戦的文脈における学習と効果的な戦略実践のギャップが示唆された。
論文 参考訳(メタデータ) (2025-01-20T23:43:36Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Scalable and Equitable Math Problem Solving Strategy Prediction in Big
Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。
次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。
提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2023-08-07T19:51:10Z) - ALE: A Simulation-Based Active Learning Evaluation Framework for the
Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。
この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。
NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。