論文の概要: A Survey on Complex Tasks for Goal-Directed Interactive Agents
- arxiv url: http://arxiv.org/abs/2409.18538v1
- Date: Fri, 27 Sep 2024 08:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 21:55:30.261715
- Title: A Survey on Complex Tasks for Goal-Directed Interactive Agents
- Title(参考訳): ゴール指向型対話エージェントの複雑なタスクに関する調査
- Authors: Mareike Hartmann, Alexander Koller,
- Abstract要約: この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
- 参考スコア(独自算出の注目度): 60.53915548970061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-directed interactive agents, which autonomously complete tasks through interactions with their environment, can assist humans in various domains of their daily lives. Recent advances in large language models (LLMs) led to a surge of new, more and more challenging tasks to evaluate such agents. To properly contextualize performance across these tasks, it is imperative to understand the different challenges they pose to agents. To this end, this survey compiles relevant tasks and environments for evaluating goal-directed interactive agents, structuring them along dimensions relevant for understanding current obstacles. An up-to-date compilation of relevant resources can be found on our project website: https://coli-saar.github.io/interactive-agents.
- Abstract(参考訳): ゴール指向の対話エージェントは、環境との対話を通じて自律的にタスクを完了し、日々の生活の様々な領域で人間を助けることができる。
大規模言語モデル(LLM)の最近の進歩により、そのようなエージェントを評価するための新しい、より困難なタスクが急増した。
これらのタスク間でパフォーマンスを適切にコンテキスト化するためには、エージェントにもたらすさまざまな課題を理解することが不可欠である。
この目的のために、この調査では、目標指向の対話エージェントを評価するための関連するタスクや環境をコンパイルし、現在の障害を理解するための次元に沿ってそれらを構造化する。
関連リソースの最新のコンパイルは、プロジェクトのWebサイト(https://coli-saar.github.io/interactive-agents)で確認できます。
関連論文リスト
- ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents [20.460482488872145]
本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。
本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。
定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-07-12T00:07:43Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - Learning by Asking for Embodied Visual Navigation and Task Completion [20.0182240268864]
本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
論文 参考訳(メタデータ) (2023-02-09T18:59:41Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。