Fugu-MT 論文翻訳(概要): IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents

論文の概要: IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents

arxiv url: http://arxiv.org/abs/2407.08898v1
Date: Fri, 12 Jul 2024 00:07:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 01:16:30.442315
Title: IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents
Title（参考訳）: IDAT: 対話型タスクソービングエージェントの構築と評価のためのマルチモーダルデータセットとツールキット
Authors: Shrestha Mohanty, Negar Arabzadeh, Andrea Tupini, Yuxuan Sun, Alexey Skrynnik, Artem Zholus, Marc-Alexandre Côté, Julia Kiseleva,
Abstract要約: 本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
参考スコア（独自算出の注目度）: 20.460482488872145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Seamless interaction between AI agents and humans using natural language remains a key goal in AI research. This paper addresses the challenges of developing interactive agents capable of understanding and executing grounded natural language instructions through the IGLU competition at NeurIPS. Despite advancements, challenges such as a scarcity of appropriate datasets and the need for effective evaluation platforms persist. We introduce a scalable data collection tool for gathering interactive grounded language instructions within a Minecraft-like environment, resulting in a Multi-Modal dataset with around 9,000 utterances and over 1,000 clarification questions. Additionally, we present a Human-in-the-Loop interactive evaluation platform for qualitative analysis and comparison of agent performance through multi-turn communication with human annotators. We offer to the community these assets referred to as IDAT (IGLU Dataset And Toolkit) which aim to advance the development of intelligent, interactive AI agents and provide essential resources for further research.
Abstract（参考訳）: AIエージェントと自然言語を用いた人間とのシームレスな対話は、AI研究の重要な目標である。本稿では,NeurIPSにおけるIGLUコンペティションを通じて,自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。進歩にもかかわらず、適切なデータセットの不足や効果的な評価プラットフォームの必要性といった課題が続いている。 Minecraftのような環境で対話的な接地言語命令を収集するためのスケーラブルなデータ収集ツールを導入する。さらに,人間アノテータとのマルチターン通信による定性解析とエージェント性能の比較を行うための,Human-in-the-Loopインタラクティブ評価プラットフォームを提案する。我々は、知的な対話型AIエージェントの開発を促進し、さらなる研究に不可欠なリソースを提供することを目的として、IDAT(IGLU Dataset And Toolkit)と呼ばれるこれらの資産をコミュニティに提供します。

関連論文リスト

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI [24.545163508739943]
FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
論文参考訳（メタデータ） (2025-11-17T15:58:46Z)
What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文参考訳（メタデータ） (2025-11-02T17:09:29Z)
Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文参考訳（メタデータ） (2025-08-06T17:46:23Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文参考訳（メタデータ） (2025-04-07T21:01:25Z)
Are Large Language Models Ready for Business Integration? A Study on Generative AI Adoption [0.6144680854063939]
本研究では,Google Geminiのような他の大規模言語モデル(LLM)のビジネスアプリケーションへの適用性について検討する。ディズニーランドの異なる支店からの42,654件のレビューデータセットが採用された。その結果、75%の成功率、25%のエラー、モデル自己参照の事例など、反応のスペクトルが示された。
論文参考訳（メタデータ） (2025-01-28T21:01:22Z)
Simulating User Agents for Embodied Conversational-AI [9.402740034754455]
我々は,エンボディエージェントとのインタラクション中にユーザ動作をシミュレート可能な,LLMベースのユーザエージェントを構築した。シミュレーション対話をTEAChデータセットと比較することにより,ユーザエージェントの人間的行動生成能力を評価する。
論文参考訳（メタデータ） (2024-10-31T00:56:08Z)
A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文参考訳（メタデータ） (2024-09-27T08:17:53Z)
CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data [7.357348564300953]
CI-Benchは、モデル推論中に個人情報を保護するAIアシスタントの能力を評価するための包括的なベンチマークである。対話やメールを含む自然なコミュニケーションを生成するための,新しい,スケーラブルなマルチステップデータパイプラインを提案する。我々は、AIアシスタントを定式化し、評価し、パーソナルアシスタントタスクに向けたさらなる研究と注意深いトレーニングの必要性を実証する。
論文参考訳（メタデータ） (2024-09-20T21:14:36Z)
Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文参考訳（メタデータ） (2023-07-24T07:40:59Z)
Does Collaborative Human-LM Dialogue Generation Help Information Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-13T20:02:50Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
Transforming Human-Centered AI Collaboration: Redefining Embodied Agents Capabilities through Interactive Grounded Language Instructions [23.318236094953072]
人間の知能の適応性は目覚ましいもので、新しいタスクやマルチモーダル環境に迅速に適応することができる。研究コミュニティはインタラクティブな「身体的エージェント」の開発を積極的に進めているこれらのエージェントは、コミュニケーションが壊れたり、指示が不明確であったりした場合に、迅速にフィードバックをリクエストする能力を持っていなければならない。
論文参考訳（メタデータ） (2023-05-18T07:51:33Z)
Improving Grounded Language Understanding in a Collaborative Environment by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文参考訳（メタデータ） (2023-04-21T05:37:59Z)
Collecting Interactive Multi-modal Datasets for Grounded Language Understanding [66.30648042100123]
自然言語タスクを用いた協調型エンボディエージェントの定式化を行った。広範かつスケーラブルなデータ収集ツールを開発しました。対話型基底言語理解のための最初のデータセットを収集した。
論文参考訳（メタデータ） (2022-11-12T02:36:32Z)
SPA: Verbal Interactions between Agents and Avatars in Shared Virtual Environments using Propositional Planning [61.335252950832256]
SPA(Sense-Plan-Ask)は、仮想的な仮想環境において、仮想的な人間のようなエージェントとユーザアバターの間の言語的対話を生成する。提案アルゴリズムは実行時コストを小さくし,自然言語通信を利用せずにエージェントよりも効率的に目標を達成できることが判明した。
論文参考訳（メタデータ） (2020-02-08T23:15:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。