論文の概要: Infant Agent: A Tool-Integrated, Logic-Driven Agent with Cost-Effective API Usage
- arxiv url: http://arxiv.org/abs/2411.01114v1
- Date: Sat, 02 Nov 2024 02:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:44:46.486076
- Title: Infant Agent: A Tool-Integrated, Logic-Driven Agent with Cost-Effective API Usage
- Title(参考訳): Infant Agent: コスト効果のあるAPI使用量を備えたツール集約型ロジック駆動エージェント
- Authors: Bin Lei, Yuchen Li, Yiming Zeng, Tao Ren, Yi Luo, Tianyu Shi, Zitian Gao, Zeyu Hu, Weitai Kang, Qiuwu Chen,
- Abstract要約: textscInfant Agentはタスク認識機能、演算子、階層型管理システム、メモリ検索機構を統合する。
textscInfant Agentを使用すると、GPT-4oのSWE-bench-liteデータセットの精度は$mathbf0.33%$から$mathbf30%$に上昇し、AIME-2024数学コンペティションでは、GPT-4oの精度は$mathbf13.3%$から$mathbf37%$に上昇する。
- 参考スコア(独自算出の注目度): 19.54437582630868
- License:
- Abstract: Despite the impressive capabilities of large language models (LLMs), they currently exhibit two primary limitations, \textbf{\uppercase\expandafter{\romannumeral 1}}: They struggle to \textbf{autonomously solve the real world engineering problem}. \textbf{\uppercase\expandafter{\romannumeral 2}}: They remain \textbf{challenged in reasoning through complex logic problems}. To address these challenges, we developed the \textsc{Infant Agent}, integrating task-aware functions, operators, a hierarchical management system, and a memory retrieval mechanism. Together, these components enable large language models to sustain extended reasoning processes and handle complex, multi-step tasks efficiently, all while significantly reducing API costs. Using the \textsc{Infant Agent}, GPT-4o's accuracy on the SWE-bench-lite dataset rises from $\mathbf{0.33\%}$ to $\mathbf{30\%}$, and in the AIME-2024 mathematics competition, it increases GPT-4o's accuracy from $\mathbf{13.3\%}$ to $\mathbf{37\%}$.
- Abstract(参考訳): 大きな言語モデル(LLM)の印象的な機能にもかかわらず、現時点では2つの主要な制限がある: \textbf{\uppercase\expandafter{\romannumeral 1}} それらは、現実世界のエンジニアリング問題を解決するために苦戦している。
\textbf{\uppercase\expandafter{\romannumeral 2}}: それらは複雑な論理問題を通して推論される。
これらの課題に対処するため,タスク認識機能,演算子,階層型管理システム,メモリ検索機構を統合した「textsc{Infant Agent}」を開発した。
これらのコンポーネントを組み合わせることで、大規模な言語モデルが拡張推論プロセスを維持でき、複雑なマルチステップタスクを効率的に処理できると同時に、APIコストを大幅に削減できる。
GPT-4oのSWE-bench-liteデータセットの精度は$\mathbf{0.33\%}$から$\mathbf{30\%}$に上昇し、AIME-2024数学コンペティションでは、GPT-4oの精度は$\mathbf{13.3\%}$から$\mathbf{37\%}$に上昇する。
関連論文リスト
- FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization [77.3396841985172]
我々は、構造化された非極小最適化問題の解法として、2時間勾配上昇(TTGDA)を統一的に解析する。
我々の貢献はTTGDAアルゴリズムを設計することであり、設定を超えて効果的です。
論文 参考訳(メタデータ) (2024-08-21T20:14:54Z) - Vision Transformer with Sparse Scan Prior [57.37893387775829]
人間の眼のスパース走査機構に触発され,textbfScan textbfSelf-textbfAttention 機構を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems [10.517708404982624]
本稿では,条件マイニングのためのtextitMulti-Agent システム (textbfMACM) を提案する。
複雑な数学的問題を解き、様々な数学的文脈にまたがる強力な一般化能力を示す。
MACMの助けを借りて、GPT-4 Turboの精度は、MATHデータセットの最も難しい5つの数学的な問題を、$mathbf54.68%テキストからmathbf76.73%$へと引き上げた。
論文 参考訳(メタデータ) (2024-04-06T21:39:01Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Modeling Complex Mathematical Reasoning via Large Language Model based
MathAgent [15.81048994298046]
大規模言語モデル (LLM) は複雑な数学的問題を解く上で困難に直面している。
本稿では, エージェントベースのゼロショットフレームワークを用いて, LLMの数学的解法を公式に記述し, 拡張する。
miniF2FとMATHの実験では、PreRとMathAgentsの有効性が実証されている。
論文 参考訳(メタデータ) (2023-12-14T13:33:50Z) - Blocked Collaborative Bandits: Online Collaborative Filtering with
Per-Item Budget Constraints [46.65419724935037]
本稿では,複数のユーザを抱えるエンブロック型協調バンドイットの問題点について考察する。
私たちのゴールは、時間とともにすべてのユーザーが獲得した累積報酬を最大化するアルゴリズムを設計することです。
textttB-LATTICEは、予算制約の下で、ユーザ毎に$widetildeO(sqrtmathsfT(sqrtmathsfM-1)$を後悔する。
論文 参考訳(メタデータ) (2023-10-31T11:04:21Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - Boosting Logical Reasoning in Large Language Models through a New
Framework: The Graph of Thought [7.356034193515096]
本稿は、TextitGraph of Thoughts (GoT)と呼ばれる先駆的なプロンプト技術について紹介する。
提案手法は GPT-4 よりも優れ,各タスクに対して 89.7%$, 86%$, 56%$ の精度向上を実現した。
最先端のプロンプトメソッドである textitTree of Thought (ToT) を併用すると,我々のアプローチでは,平均精度が23%,24%,15%向上した。
論文 参考訳(メタデータ) (2023-08-16T18:13:27Z) - On Gradient Descent Ascent for Nonconvex-Concave Minimax Problems [86.92205445270427]
非コンミニマックス問題、$min_mathbfx max_mathhidoty f(mathbfdoty)$を効率的に考える。
論文 参考訳(メタデータ) (2019-06-02T03:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。