Fugu-MT 論文翻訳(概要): Learning to Solve Complex Tasks by Talking to Agents

論文の概要: Learning to Solve Complex Tasks by Talking to Agents

arxiv url: http://arxiv.org/abs/2110.08542v1
Date: Sat, 16 Oct 2021 10:37:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-21 13:50:53.903507
Title: Learning to Solve Complex Tasks by Talking to Agents
Title（参考訳）: エージェントと対話して複雑な課題を解決するための学習
Authors: Tushar Khot and Kyle Richardson and Daniel Khashabi and Ashish Sabharwal
Abstract要約: 人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 39.08818632689814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans often solve complex problems by interacting (in natural language) with existing agents, such as AI assistants, that can solve simpler sub-tasks. These agents themselves can be powerful systems built using extensive resources and privately held data. In contrast, common NLP benchmarks aim for the development of self-sufficient models for every task. To address this gap and facilitate research towards ``green'' AI systems that build upon existing agents, we propose a new benchmark called CommaQA that contains three kinds of complex reasoning tasks that are designed to be solved by ``talking'' to four agents with different capabilities. We demonstrate that state-of-the-art black-box models, which are unable to leverage existing agents, struggle on CommaQA (exact match score only reaches 40pts) even when given access to the agents' internal knowledge and gold fact supervision. On the other hand, models using gold question decomposition supervision can indeed solve CommaQA to a high accuracy (over 96\% exact match) by learning to utilize the agents. Even these additional supervision models, however, do not solve our compositional generalization test set. Finally the end-goal of learning to solve complex tasks by communicating with existing agents \emph{without relying on any additional supervision} remains unsolved and we hope CommaQA serves as a novel benchmark to enable the development of such systems.
Abstract（参考訳）: 人間はしばしば、より単純なサブタスクを解決できるaiアシスタントのような既存のエージェントと(自然言語で)相互作用することで複雑な問題を解決する。これらのエージェント自体は、広範なリソースとプライベートに保持されたデータを使用して構築される強力なシステムである。対照的に、一般的なNLPベンチマークはタスク毎に自己充足型モデルを開発することを目的としている。このギャップに対処し、既存のエージェントを基盤とする‘グリーン’aiシステムへの研究を促進するために、さまざまな能力を持つ4つのエージェントに対して‘トーク’によって解決されるように設計された、3種類の複雑な推論タスクを含む、commaqaと呼ばれる新しいベンチマークを提案する。既存のエージェントを活用できない最先端のブラックボックスモデルは、エージェントの内部知識や金の事実管理へのアクセスを与えられた場合でも、CommaQA(マッチスコアは40ptsにしか達しない)に苦しむことを示す。一方で、ゴールド問題分解監督を用いたモデルは、エージェントの利用を学習することで、コンマカを高い精度(96\%以上の正確な一致)で解くことができる。しかし、これらの追加の監督モデルでさえ、構成一般化テストセットを解くことはできない。最後に、既存のエージェントと通信することで複雑なタスクを解決するための学習の終わりは未解決であり、commaqaがこのようなシステムの開発を可能にする新しいベンチマークになることを願っている。

関連論文リスト

From MAS to MARS: Coordination Failures and Reasoning Trade-offs in Hierarchical Multi-Agent Robotic Systems within a Healthcare Scenario [3.5262044630932254]
マルチエージェントロボットシステム(MARS)は、物理的およびタスク関連の制約を統合することで、マルチエージェントシステム上に構築される。高度なマルチエージェントフレームワークが利用可能であるにも関わらず、実際のロボットへのデプロイメントは制限されている。
論文参考訳（メタデータ） (2025-08-06T17:54:10Z)
A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文参考訳（メタデータ） (2025-04-07T21:01:25Z)
D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security [22.86304661035188]
大規模言語モデル(LLM)は、サイバーセキュリティにおいて様々な方法で使用されている。 CTF(Capture the Flag)の課題は、LLMエージェントの自動タスク計画能力を評価するためのベンチマークとして機能する。協調型CTF問題解決のためのD-CIPHERマルチエージェントLLMフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-15T23:43:18Z)
Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。 WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文参考訳（メタデータ） (2025-02-09T18:35:08Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文参考訳（メタデータ） (2024-09-27T08:17:53Z)
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文参考訳（メタデータ） (2024-09-17T17:54:17Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning [12.80689911863731]
Sibylは、最小限のツールセットを効率的に活用することによって、複雑な推論タスクに取り組むように設計された強力なフレームワークである。 Sibylは、最終回答を自己定義し、包括的でバランスの取れたアプローチを確保するために、マルチエージェントの議論に基づく陪審を実施。 GAIAベンチマークテストセットの実験結果から,Sibylエージェントは平均スコア34.55%の最先端性能を実現していることがわかった。
論文参考訳（メタデータ） (2024-07-15T13:45:40Z)
Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。 6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-05-29T18:08:37Z)
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。 Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文参考訳（メタデータ） (2024-05-09T17:49:04Z)
Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文参考訳（メタデータ） (2023-10-31T03:37:11Z)
Towards Collaborative Question Answering: A Preliminary Study [63.91687114660126]
我々は、モデレーターによって調整された複数の専門家エージェントが協力して、単一のエージェントだけでは答えられない質問に答える新しいQAタスクCollabQAを提案する。専門家に分散可能な,大規模な知識グラフの合成データセットを作成する。専門家が完璧で均一でない限り,コラボレーション構造を導入することなく,この問題が解決可能であることを示す。
論文参考訳（メタデータ） (2022-01-24T14:27:00Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。