論文の概要: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
- arxiv url: http://arxiv.org/abs/2310.10062v2
- Date: Thu, 28 Dec 2023 15:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:13:46.085057
- Title: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
- Title(参考訳): ツール支援生成戦略の包括的評価
- Authors: Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd
Bohnet, Mor Geva
- Abstract要約: ますます多くの研究が、その欠点を克服するためのツールによる言語モデルの拡張を調査している。
様々なツール利用戦略が提案されているが、体系的かつ公正な比較は行われていない。
私たちの発見は、少数ショットツールの統合が依然としてオープンな課題であることを示している。
- 参考スコア(独自算出の注目度): 39.30954697422296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing area of research investigates augmenting language models with tools
(e.g., search engines, calculators) to overcome their shortcomings (e.g.,
missing or incorrect knowledge, incorrect logical inferences). Various few-shot
tool-usage strategies have been proposed. However, there is no systematic and
fair comparison across different strategies, or between these strategies and
strong baselines that do not leverage tools. We conduct an extensive empirical
analysis, finding that (1) across various datasets, example difficulty levels,
and models, strong no-tool baselines are competitive to tool-assisted
strategies, implying that effectively using tools with in-context
demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval
tasks, strategies that *refine* incorrect outputs with tools outperform
strategies that retrieve relevant information *ahead of* or *during
generation*; (3) tool-assisted strategies are expensive in the number of tokens
they require to work -- incurring additional costs by orders of magnitude --
which does not translate into significant improvement in performance. Overall,
our findings suggest that few-shot tool integration is still an open challenge,
emphasizing the need for comprehensive evaluations of future strategies to
accurately assess their *benefits* and *costs*.
- Abstract(参考訳): 研究領域の増大は、ツール(検索エンジン、電卓など)で言語モデルを強化し、その欠点(例えば、誤った知識、誤った論理的推論)を克服する。
様々なツール利用戦略が提案されている。
しかし、異なる戦略、あるいはこれらの戦略とツールを使わない強力なベースラインの間に、体系的かつ公平な比較は存在しない。
We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -which does not translate into significant improvement in performance.
全体としては、少額のツール統合は依然としてオープンな課題であり、彼らの*便益*と*コスト*を正確に評価する今後の戦略の包括的な評価の必要性を強調しています。
関連論文リスト
- Query Routing for Homogeneous Tools: An Instantiation in the RAG Scenario [62.615210194004106]
ツール学習に関する現在の研究は、主に様々な選択肢から最も効果的なツールを選択することに焦点を当てており、しばしば費用対効果を見落としている。
本稿では,タスクの達成に必要な性能と関連するコストの両方を予測し,同種ツールの選択に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:24:09Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Scalable and Equitable Math Problem Solving Strategy Prediction in Big
Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。
次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。
提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2023-08-07T19:51:10Z) - ALE: A Simulation-Based Active Learning Evaluation Framework for the
Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。
この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。
NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:42:11Z) - Integrating Crowdsourcing and Active Learning for Classification of
Work-Life Events from Tweets [9.137917522951277]
ソーシャルメディアデータは構造化されておらず、研究のために複雑な操作をしなければならない。
私たちは、アクティブな学習戦略を組み合わせたクラウドソーシングパイプラインを考案しました。
結果として、クラウドソーシングは高品質なアノテーションを作成するのに有用であり、アクティブな学習は必要なツイート数を減らすのに役立ちます。
論文 参考訳(メタデータ) (2020-03-26T20:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。