Fugu-MT 論文翻訳(概要): The Art of Tool Interface Design

論文の概要: The Art of Tool Interface Design

arxiv url: http://arxiv.org/abs/2503.21036v1
Date: Wed, 26 Mar 2025 23:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.332326
Title: The Art of Tool Interface Design
Title（参考訳）: ツールインタフェース設計の技術
Authors: Yunnan Wu, Paul Chen, Deshank Baranwal, Jinlong Zhou, Jian Yuan,
Abstract要約: 本稿では,課題推論タスクにおける最先端技術を実現するエージェントフレームワーク,Thinkerを提案する。 GPT-4o(バージョン2024-06-01)で82.6%の成功率(ベースライン:68.3%)、Llama-3.1 405B(ベースライン:49.6%)で81.9%の成功率を達成した。
参考スコア（独自算出の注目度）: 4.330111173030933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an agentic framework, Thinker, which achieves state of art performance in challenging reasoning tasks for realistic customer service scenarios that involve complex business logic and human interactions via long horizons. On the $\tau$-bench retail dataset, Thinker achieves 82.6\% success rate with GPT-4o (version 2024-06-01) (baseline: 68.3\%), and 81.9\% success rate with Llama-3.1 405B (baseline: 49.6\%), without any fine-tuning. Thinker effectively closes the gap in reasoning capabilities between the base models by introducing proper structure. The key features of the Thinker framework are: (1) State-Machine Augmented Generation (SMAG), which represents business logic as state machines and the LLM uses state machines as tools. (2) Delegation of tasks from the main reasoning loop to LLM-powered tools. (3) Adaptive context management. Our prompting-only solution achieves signficant gains, while still maintaining a standard agentic architecture with a ReAct style reasoning loop. The key is to innovate on the tool interface design, as exemplified by SMAG and the LLM-powered tools.
Abstract（参考訳）: 我々は、複雑なビジネスロジックと長い地平線を通じたヒューマンインタラクションを含む現実的な顧客サービスシナリオの推論タスクに挑戦して、最先端の技術的パフォーマンスを実現するエージェントフレームワーク、Thinkerを提案する。 $\tau$-benchの小売データセットでは、GPT-4o(バージョン2024-06-01)で82.6\%(ベースライン:68.3\%)、Llama-3.1 405B(ベースライン:49.6\%)で81.9\%(ベースライン:49.6\%)を達成している。思考者は、適切な構造を導入することで、ベースモデル間の推論能力のギャップを効果的に埋める。 1)ステートマシンとしてビジネスロジックを表現するステートマシン(SMAG)と、LLMはステートマシンをツールとして使用する。 2) 主推論ループからLCMツールへのタスクの委譲。 (3)適応的文脈管理。我々のプロンプトのみのソリューションは、ReActスタイルの推論ループを持つ標準的なエージェントアーキテクチャを維持しながら、顕著な利益を達成する。鍵となるのは、SMAG や LLM ベースのツールが示すように、ツールインターフェースの設計を革新することである。

関連論文リスト

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies [6.7519234849348075]
推論の混合は、様々な推論戦略を大きな言語モデルに組み込む。 MoR150はCoTプロンプトで0.730(2.2%改善)、ベースラインで0.734(13.5%改善)を達成した。
論文参考訳（メタデータ） (2025-07-01T09:39:04Z)
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
ToolRL: Reward is All Tool Learning Needs [54.16305891389931]
大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-04-16T21:45:32Z)
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。モデルは400のトレーニングステップで67%の精度を達成する。注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文参考訳（メタデータ） (2025-04-15T18:10:22Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
SMART: Self-Aware Agent for Tool Overuse Mitigation [58.748554080273585]
現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。 SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文参考訳（メタデータ） (2025-02-17T04:50:37Z)
MATATA: A weakly-supervised MAthematical Tool-Assisted reasoning for Tabular Applications [0.9831489366502302]
MATATAは、推論、計画、ツール使用を通じてデータ問題に対してLLMエージェントを訓練するコスト効率のよい方法である。 3.8B/8B SLM(Small Language Models)は、特にローカルホスティングとセンシティブなビジネスコンテキストに向いている。実験により、MATATAはオープンソースモデルに基づく推論フレームワークのうち、FinQAとTAT-QAで最先端のパフォーマンスに達することが示された。
論文参考訳（メタデータ） (2024-11-28T05:12:17Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。