論文の概要: Evaluating Multimodal Interactive Agents
- arxiv url: http://arxiv.org/abs/2205.13274v1
- Date: Thu, 26 May 2022 11:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 00:30:32.108480
- Title: Evaluating Multimodal Interactive Agents
- Title(参考訳): マルチモーダルインタラクティブエージェントの評価
- Authors: Josh Abramson, Arun Ahuja, Federico Carnevale, Petko Georgiev, Alex
Goldin, Alden Hung, Jessica Landon, Timothy Lillicrap, Alistair Muldal, Blake
Richards, Adam Santoro, Tamara von Glehn, Greg Wayne, Nathaniel Wong, Chen
Yan
- Abstract要約: 標準化テストスイート(STS)と呼ばれる新しい評価手法を提案する。
STSでは、実際のヒューマンインタラクションデータから抽出された振る舞いシナリオを使用している。
高速で、制御され、解釈可能で、自然主義的な相互作用を代表している。
- 参考スコア(独自算出の注目度): 14.936474798718653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating agents that can interact naturally with humans is a common goal in
artificial intelligence (AI) research. However, evaluating these interactions
is challenging: collecting online human-agent interactions is slow and
expensive, yet faster proxy metrics often do not correlate well with
interactive evaluation. In this paper, we assess the merits of these existing
evaluation metrics and present a novel approach to evaluation called the
Standardised Test Suite (STS). The STS uses behavioural scenarios mined from
real human interaction data. Agents see replayed scenario context, receive an
instruction, and are then given control to complete the interaction offline.
These agent continuations are recorded and sent to human annotators to mark as
success or failure, and agents are ranked according to the proportion of
continuations in which they succeed. The resulting STS is fast, controlled,
interpretable, and representative of naturalistic interactions. Altogether, the
STS consolidates much of what is desirable across many of our standard
evaluation metrics, allowing us to accelerate research progress towards
producing agents that can interact naturally with humans.
https://youtu.be/YR1TngGORGQ
- Abstract(参考訳): 人間と自然に対話できるエージェントを作ることは、人工知能(ai)研究の共通の目標である。
オンラインの人間とエージェントのインタラクションの収集は遅くて費用がかかるが、より高速なプロキシメトリクスは、対話的な評価とよく相関しないことが多い。
本稿では,これらの評価指標のメリットを評価し,標準化テストスイート(STS)と呼ばれる新しい評価手法を提案する。
stsは、実際の人間の相互作用データから抽出された行動シナリオを使用する。
エージェントは、リプレイされたシナリオコンテキストを確認し、命令を受け取り、オフラインでインタラクションを完了するために制御される。
これらのエージェント継続は、成功または失敗をマークするために人間の注釈者に記録され、成功の継続の割合に応じてランク付けされる。
結果のSTSは、高速で、制御され、解釈可能で、自然主義的な相互作用を代表している。
さらに、STSは私たちの標準的な評価指標の多くを集約し、人間と自然に対話できるエージェントを生み出すための研究の進歩を加速します。
https://youtu.be/YR1TngGORGQ
関連論文リスト
- Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions [25.464036307823974]
SocialEgoNetはグラフベースのフレームワークで、階層的な学習アプローチを通じてタスク依存を利用する。
SocialEgoNetは、高い推論速度のためにビデオ入力のわずか1秒から抽出されたボディスケルトン(顔、手、体からキーポイント)を使用する。
評価のために、新しいクラスラベルとバウンディングボックスアノテーションとの既存のエゴセントリックなヒューマンエージェントインタラクションを強化する。
論文 参考訳(メタデータ) (2024-12-21T16:54:28Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。