論文の概要: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
- arxiv url: http://arxiv.org/abs/2310.10062v1
- Date: Mon, 16 Oct 2023 04:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:27:02.024607
- Title: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
- Title(参考訳): ツール支援生成戦略の包括的評価
- Authors: Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd
Bohnet, Mor Geva
- Abstract要約: ますます多くの研究が、その欠点を克服するためのツールによる言語モデルの拡張を調査している。
様々なツール利用戦略が提案されているが、体系的かつ公正な比較は行われていない。
私たちの発見は、少数ショットツールの統合が依然としてオープンな課題であることを示している。
- 参考スコア(独自算出の注目度): 39.30954697422296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing area of research investigates augmenting language models with tools
(e.g., search engines, calculators) to overcome their shortcomings (e.g.,
missing or incorrect knowledge, incorrect logical inferences). Various few-shot
tool-usage strategies have been proposed. However, there is no systematic and
fair comparison across different strategies, or between these strategies and
strong baselines that do not leverage tools. We conduct an extensive empirical
analysis, finding that (1) across various datasets, example difficulty levels,
and models, strong no-tool baselines are competitive to tool-assisted
strategies, implying that effectively using tools with in-context
demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval
tasks, strategies that *refine* incorrect outputs with tools outperform
strategies that retrieve relevant information *ahead of* or *during
generation*; (3) tool-assisted strategies are expensive in the number of tokens
they require to work -- incurring additional costs by orders of magnitude --
which does not translate into significant improvement in performance. Overall,
our findings suggest that few-shot tool integration is still an open challenge,
emphasizing the need for comprehensive evaluations of future strategies to
accurately assess their *benefits* and *costs*.
- Abstract(参考訳): 研究領域の増大は、ツール(検索エンジン、電卓など)で言語モデルを強化し、その欠点(例えば、誤った知識、誤った論理的推論)を克服する。
様々なツール利用戦略が提案されている。
しかし、異なる戦略、あるいはこれらの戦略とツールを使わない強力なベースラインの間に、体系的かつ公平な比較は存在しない。
We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -which does not translate into significant improvement in performance.
全体としては、少額のツール統合は依然としてオープンな課題であり、彼らの*便益*と*コスト*を正確に評価する今後の戦略の包括的な評価の必要性を強調しています。
関連論文リスト
- What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。
LMが使用する外部プログラムとしてツールを統一的に定義する。
各種ツールの効率を実証的に検討した。
論文 参考訳(メタデータ) (2024-03-18T17:20:07Z) - Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors,
Optimizers, and Evaluators for Problem Solving [82.10729120212179]
StrategyLLMは、様々なタスクに対して、一般化可能で一貫性のあるショットプロンプトを自動で構築する。
StrategyLLMは、戦略生成器、実行器、評価器、評価器の4つのLCMベースのエージェントを使用して、与えられたタスクに対して有望な戦略を生成し、評価し、選択する。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Scalable and Equitable Math Problem Solving Strategy Prediction in Big
Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。
次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。
提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2023-08-07T19:51:10Z) - ALE: A Simulation-Based Active Learning Evaluation Framework for the
Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。
この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。
NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:42:11Z) - A Comprehensive Study on Quality Assurance Tools for Java [15.255117038871337]
品質保証(QA)ツールはますます注目を集めており、開発者に広く利用されている。
既存の研究は以下の方法で制限されている。
彼らは、スキャニングルール分析を考慮せずにツールを比較します。
研究方法論とベンチマークデータセットのため、ツールの有効性については意見が一致していない。
時間性能の分析に関する大規模な研究は行われていない。
論文 参考訳(メタデータ) (2023-05-26T10:48:02Z) - Tool Learning with Foundation Models [114.2581831746077]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-04-17T15:16:10Z) - Integrating Crowdsourcing and Active Learning for Classification of
Work-Life Events from Tweets [9.137917522951277]
ソーシャルメディアデータは構造化されておらず、研究のために複雑な操作をしなければならない。
私たちは、アクティブな学習戦略を組み合わせたクラウドソーシングパイプラインを考案しました。
結果として、クラウドソーシングは高品質なアノテーションを作成するのに有用であり、アクティブな学習は必要なツイート数を減らすのに役立ちます。
論文 参考訳(メタデータ) (2020-03-26T20:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。