Fugu-MT 論文翻訳(概要): A Survey on Complex Tasks for Goal-Directed Interactive Agents

論文の概要: A Survey on Complex Tasks for Goal-Directed Interactive Agents

arxiv url: http://arxiv.org/abs/2409.18538v1
Date: Fri, 27 Sep 2024 08:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 21:55:30.261715
Title: A Survey on Complex Tasks for Goal-Directed Interactive Agents
Title（参考訳）: ゴール指向型対話エージェントの複雑なタスクに関する調査
Authors: Mareike Hartmann, Alexander Koller,
Abstract要約: この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
参考スコア（独自算出の注目度）: 60.53915548970061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Goal-directed interactive agents, which autonomously complete tasks through interactions with their environment, can assist humans in various domains of their daily lives. Recent advances in large language models (LLMs) led to a surge of new, more and more challenging tasks to evaluate such agents. To properly contextualize performance across these tasks, it is imperative to understand the different challenges they pose to agents. To this end, this survey compiles relevant tasks and environments for evaluating goal-directed interactive agents, structuring them along dimensions relevant for understanding current obstacles. An up-to-date compilation of relevant resources can be found on our project website: https://coli-saar.github.io/interactive-agents.
Abstract（参考訳）: ゴール指向の対話エージェントは、環境との対話を通じて自律的にタスクを完了し、日々の生活の様々な領域で人間を助けることができる。大規模言語モデル(LLM)の最近の進歩により、そのようなエージェントを評価するための新しい、より困難なタスクが急増した。これらのタスク間でパフォーマンスを適切にコンテキスト化するためには、エージェントにもたらすさまざまな課題を理解することが不可欠である。この目的のために、この調査では、目標指向の対話エージェントを評価するための関連するタスクや環境をコンパイルし、現在の障害を理解するための次元に沿ってそれらを構造化する。関連リソースの最新のコンパイルは、プロジェクトのWebサイト(https://coli-saar.github.io/interactive-agents)で確認できます。

関連論文リスト

SpeakRL: Synergizing Reasoning, Speaking, and Acting in Language Models with Reinforcement Learning [46.70182219204539]
SpeakRLは、エージェントの会話能力を高めるための強化学習(RL)手法である。本稿では,会話行動に対する報酬設計の体系的分析を行い,行動に対する質問のバランスをとるための指導者のための原則的報酬定式化を提案する。
論文参考訳（メタデータ） (2025-12-15T10:08:53Z)
Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文参考訳（メタデータ） (2025-11-12T12:56:25Z)
A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文参考訳（メタデータ） (2025-04-07T21:01:25Z)
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文参考訳（メタデータ） (2025-04-03T14:21:33Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文参考訳（メタデータ） (2024-11-01T15:57:45Z)
IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents [20.460482488872145]
本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
論文参考訳（メタデータ） (2024-07-12T00:07:43Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文参考訳（メタデータ） (2023-10-31T03:37:11Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)
Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文参考訳（メタデータ） (2023-07-24T07:40:59Z)
CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文参考訳（メタデータ） (2023-03-31T01:09:00Z)
Learning by Asking for Embodied Visual Navigation and Task Completion [20.0182240268864]
本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
論文参考訳（メタデータ） (2023-02-09T18:59:41Z)
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文参考訳（メタデータ） (2020-07-31T00:13:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。