論文の概要: Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
- arxiv url: http://arxiv.org/abs/2406.06469v1
- Date: Mon, 10 Jun 2024 17:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:49:35.610611
- Title: Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning
- Title(参考訳): Husky: マルチステップ推論のための統一されたオープンソース言語エージェント
- Authors: Joongwon Kim, Bhargavi Paranjape, Tushar Khot, Hannaneh Hajishirzi,
- Abstract要約: 我々はHuskyを紹介した。Huskyは総合的でオープンソースの言語エージェントで、統一されたアクション空間について推論することを学ぶ。
ハスキーは、(1)与えられたタスクを解決するために次のアクションを生成すること、2)エキスパートモデルを使用してアクションを実行すること、の2つの段階を繰り返す。
実験の結果,Huskyは14の評価データセットで先行言語エージェントよりも優れていた。
- 参考スコア(独自算出の注目度): 67.26776442697184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language agents perform complex tasks by using tools to execute each step precisely. However, most existing agents are based on proprietary models or designed to target specific tasks, such as mathematics or multi-hop question answering. We introduce Husky, a holistic, open-source language agent that learns to reason over a unified action space to address a diverse set of complex tasks involving numerical, tabular, and knowledge-based reasoning. Husky iterates between two stages: 1) generating the next action to take towards solving a given task and 2) executing the action using expert models and updating the current solution state. We identify a thorough ontology of actions for addressing complex tasks and curate high-quality data to train expert models for executing these actions. Our experiments show that Husky outperforms prior language agents across 14 evaluation datasets. Moreover, we introduce HuskyQA, a new evaluation set which stress tests language agents for mixed-tool reasoning, with a focus on retrieving missing knowledge and performing numerical reasoning. Despite using 7B models, Husky matches or even exceeds frontier LMs such as GPT-4 on these tasks, showcasing the efficacy of our holistic approach in addressing complex reasoning problems. Our code and models are available at https://github.com/agent-husky/Husky-v1.
- Abstract(参考訳): 言語エージェントは、各ステップを正確に実行するツールを使用して複雑なタスクを実行する。
しかし、既存のエージェントのほとんどはプロプライエタリなモデルに基づいており、数学やマルチホップ質問応答のような特定のタスクをターゲットにしている。
我々は、数値、表、知識に基づく推論を含む様々な複雑なタスクに対処するために、統一されたアクション空間を推論することを学ぶ、包括的なオープンソースの言語エージェントであるHuskyを紹介する。
ハスキーは2つの段階の間に反復する。
1) 与えられた課題の解決に向けて次の行動を起こすこと
2) 専門家モデルを使用してアクションを実行し、現在のソリューション状態を更新します。
複雑なタスクに対処するためのアクションの詳細なオントロジーを特定し、高品質なデータをキュレートして、これらのアクションを実行するためのエキスパートモデルを訓練する。
実験の結果,Huskyは14の評価データセットで先行言語エージェントよりも優れていた。
さらに、混合ツール推論のための言語エージェントをストレステストする新しい評価セットであるHuskyQAを導入し、不足した知識を検索し、数値推論を実行することに焦点を当てた。
7Bモデルを用いたにもかかわらず、Huskyはこれらのタスクにおいて GPT-4 などのフロンティアLM にマッチし、複雑な推論問題に対処するための総合的なアプローチの有効性を示す。
私たちのコードとモデルはhttps://github.com/agent-husky/Husky-v1.orgで公開されています。
関連論文リスト
- DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Plan of Thoughts: Heuristic-Guided Problem Solving with Large Language Models [0.0]
言語モデルを用いた多段階問題解決のための計画的アプローチを定式化する。
ゲーム・オブ・24のタスクにおいて,既存のアプローチに比べて89.4%の優れた成功率を示す。
論文 参考訳(メタデータ) (2024-04-29T18:51:17Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for
Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。
我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文 参考訳(メタデータ) (2023-06-19T15:45:36Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。
本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文 参考訳(メタデータ) (2021-06-08T17:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。