Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of Tool-Assisted Generation Strategies

論文の概要: A Comprehensive Evaluation of Tool-Assisted Generation Strategies

arxiv url: http://arxiv.org/abs/2310.10062v1
Date: Mon, 16 Oct 2023 04:53:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 16:27:02.024607
Title: A Comprehensive Evaluation of Tool-Assisted Generation Strategies
Title（参考訳）: ツール支援生成戦略の包括的評価
Authors: Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd Bohnet, Mor Geva
Abstract要約: ますます多くの研究が、その欠点を克服するためのツールによる言語モデルの拡張を調査している。様々なツール利用戦略が提案されているが、体系的かつ公正な比較は行われていない。私たちの発見は、少数ショットツールの統合が依然としてオープンな課題であることを示している。
参考スコア（独自算出の注目度）: 39.30954697422296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A growing area of research investigates augmenting language models with tools (e.g., search engines, calculators) to overcome their shortcomings (e.g., missing or incorrect knowledge, incorrect logical inferences). Various few-shot tool-usage strategies have been proposed. However, there is no systematic and fair comparison across different strategies, or between these strategies and strong baselines that do not leverage tools. We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -- which does not translate into significant improvement in performance. Overall, our findings suggest that few-shot tool integration is still an open challenge, emphasizing the need for comprehensive evaluations of future strategies to accurately assess their *benefits* and *costs*.
Abstract（参考訳）: 研究領域の増大は、ツール(検索エンジン、電卓など)で言語モデルを強化し、その欠点(例えば、誤った知識、誤った論理的推論)を克服する。様々なツール利用戦略が提案されている。しかし、異なる戦略、あるいはこれらの戦略とツールを使わない強力なベースラインの間に、体系的かつ公平な比較は存在しない。 We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -which does not translate into significant improvement in performance. 全体としては、少額のツール統合は依然としてオープンな課題であり、彼らの*便益*と*コスト*を正確に評価する今後の戦略の包括的な評価の必要性を強調しています。

関連論文リスト

Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。 SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。 SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文参考訳（メタデータ） (2026-02-26T03:34:23Z)
Experience-Guided Adaptation of Inference-Time Reasoning Strategies [49.954515048847874]
Experience-Guided Reasoner (EGuR) は蓄積された経験に基づいて推論時に調整された戦略を生成する。 EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減する。
論文参考訳（メタデータ） (2025-11-14T17:45:28Z)
Scaling Test-time Compute for LLM Agents [51.790752085445384]
テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。本研究では,テスト時間スケーリング手法を言語エージェントに適用する最初の体系的な検討を行う。
論文参考訳（メタデータ） (2025-06-15T17:59:47Z)
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios [30.20881816731553]
大規模な言語モデルが外部ツールを利用する能力により、ますます多様なタスクに対処できるようになった。タスクがより複雑で長期的になると、複雑なツール利用プロセスが様々な予期せぬエラーを引き起こす可能性がある。このようなエラーの特定、診断、回復など、効果的に対処する方法が、ツール学習を進める上で重要な研究方向として現れている。
論文参考訳（メタデータ） (2025-06-11T17:59:18Z)
Alignment for Efficient Tool Calling of Large Language Models [34.748897353548756]
大きな言語モデル(LLM)は、外部ツールを統合することができ、知識境界を広げてタスクパフォーマンスを向上させる。しかしながら、ツールに依存すると、パフォーマンス、スピード、コストのトレードオフが発生することが多い。本稿では,LSMを知識境界に整合させ,ツールの実行に関するよりインテリジェントな判断を行うという課題に対処する。
論文参考訳（メタデータ） (2025-03-09T17:55:49Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳（メタデータ） (2025-02-17T03:34:31Z)
Does the Tool Matter? Exploring Some Causes of Threats to Validity in Mining Software Repositories [9.539825294372786]
10の大規模なソフトウェアプロジェクトを抽出し分析するために、2つのツールを使用します。同様の傾向にもかかわらず、コミット数や開発者の数のような単純なメトリクスでさえ、最大500%の違いがある。このような大きな違いは、しばしば小さな技術的な詳細によって引き起こされる。
論文参考訳（メタデータ） (2025-01-25T07:42:56Z)
How Developers Choose Debugging Strategies for Challenging Web Application Defects [9.00716644826864]
本研究では,複雑なシナリオにおける戦略選択に影響を与える要因について検討する。その結果、文脈要因は複雑な方法で相互作用し、要因の組み合わせは戦略選択に影響を及ぼすことがわかった。この結果から,挑戦的文脈における学習と効果的な戦略実践のギャップが示唆された。
論文参考訳（メタデータ） (2025-01-20T23:43:36Z)
Query Routing for Homogeneous Tools: An Instantiation in the RAG Scenario [62.615210194004106]
ツール学習に関する現在の研究は、主に様々な選択肢から最も効果的なツールを選択することに焦点を当てており、しばしば費用対効果を見落としている。本稿では,タスクの達成に必要な性能と関連するコストの両方を予測し,同種ツールの選択に対処する。
論文参考訳（メタデータ） (2024-06-18T09:24:09Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。 LMが使用する外部プログラムとしてツールを統一的に定義する。各種ツールの効率を実証的に検討した。
論文参考訳（メタデータ） (2024-03-18T17:20:07Z)
StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文参考訳（メタデータ） (2023-11-15T09:18:09Z)
Risk-reducing design and operations toolkit: 90 strategies for managing risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文参考訳（メタデータ） (2023-09-06T16:14:32Z)
Scalable and Equitable Math Problem Solving Strategy Prediction in Big Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文参考訳（メタデータ） (2023-08-07T19:51:10Z)
ALE: A Simulation-Based Active Learning Evaluation Framework for the Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。 NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-01T10:42:11Z)
Integrating Crowdsourcing and Active Learning for Classification of Work-Life Events from Tweets [9.137917522951277]
ソーシャルメディアデータは構造化されておらず、研究のために複雑な操作をしなければならない。私たちは、アクティブな学習戦略を組み合わせたクラウドソーシングパイプラインを考案しました。結果として、クラウドソーシングは高品質なアノテーションを作成するのに有用であり、アクティブな学習は必要なツイート数を減らすのに役立ちます。
論文参考訳（メタデータ） (2020-03-26T20:19:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。