論文の概要: Learning to Solve Complex Tasks by Talking to Agents
- arxiv url: http://arxiv.org/abs/2110.08542v1
- Date: Sat, 16 Oct 2021 10:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 13:50:53.903507
- Title: Learning to Solve Complex Tasks by Talking to Agents
- Title(参考訳): エージェントと対話して複雑な課題を解決するための学習
- Authors: Tushar Khot and Kyle Richardson and Daniel Khashabi and Ashish
Sabharwal
- Abstract要約: 人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。
一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。
我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 39.08818632689814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans often solve complex problems by interacting (in natural language) with
existing agents, such as AI assistants, that can solve simpler sub-tasks. These
agents themselves can be powerful systems built using extensive resources and
privately held data. In contrast, common NLP benchmarks aim for the development
of self-sufficient models for every task. To address this gap and facilitate
research towards ``green'' AI systems that build upon existing agents, we
propose a new benchmark called CommaQA that contains three kinds of complex
reasoning tasks that are designed to be solved by ``talking'' to four agents
with different capabilities. We demonstrate that state-of-the-art black-box
models, which are unable to leverage existing agents, struggle on CommaQA
(exact match score only reaches 40pts) even when given access to the agents'
internal knowledge and gold fact supervision. On the other hand, models using
gold question decomposition supervision can indeed solve CommaQA to a high
accuracy (over 96\% exact match) by learning to utilize the agents. Even these
additional supervision models, however, do not solve our compositional
generalization test set. Finally the end-goal of learning to solve complex
tasks by communicating with existing agents \emph{without relying on any
additional supervision} remains unsolved and we hope CommaQA serves as a novel
benchmark to enable the development of such systems.
- Abstract(参考訳): 人間はしばしば、より単純なサブタスクを解決できるaiアシスタントのような既存のエージェントと(自然言語で)相互作用することで複雑な問題を解決する。
これらのエージェント自体は、広範なリソースとプライベートに保持されたデータを使用して構築される強力なシステムである。
対照的に、一般的なNLPベンチマークはタスク毎に自己充足型モデルを開発することを目的としている。
このギャップに対処し、既存のエージェントを基盤とする‘グリーン’aiシステムへの研究を促進するために、さまざまな能力を持つ4つのエージェントに対して‘トーク’によって解決されるように設計された、3種類の複雑な推論タスクを含む、commaqaと呼ばれる新しいベンチマークを提案する。
既存のエージェントを活用できない最先端のブラックボックスモデルは、エージェントの内部知識や金の事実管理へのアクセスを与えられた場合でも、CommaQA(マッチスコアは40ptsにしか達しない)に苦しむことを示す。
一方で、ゴールド問題分解監督を用いたモデルは、エージェントの利用を学習することで、コンマカを高い精度(96\%以上の正確な一致)で解くことができる。
しかし、これらの追加の監督モデルでさえ、構成一般化テストセットを解くことはできない。
最後に、既存のエージェントと通信することで複雑なタスクを解決するための学習の終わりは未解決であり、commaqaがこのようなシステムの開発を可能にする新しいベンチマークになることを願っている。
関連論文リスト
- Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。
Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。
GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-15T13:45:40Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。
Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z) - Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - Towards Collaborative Question Answering: A Preliminary Study [63.91687114660126]
我々は、モデレーターによって調整された複数の専門家エージェントが協力して、単一のエージェントだけでは答えられない質問に答える新しいQAタスクCollabQAを提案する。
専門家に分散可能な,大規模な知識グラフの合成データセットを作成する。
専門家が完璧で均一でない限り,コラボレーション構造を導入することなく,この問題が解決可能であることを示す。
論文 参考訳(メタデータ) (2022-01-24T14:27:00Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。