論文の概要: Agent AI: Surveying the Horizons of Multimodal Interaction
- arxiv url: http://arxiv.org/abs/2401.03568v2
- Date: Thu, 25 Jan 2024 21:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:24:58.223680
- Title: Agent AI: Surveying the Horizons of Multimodal Interaction
- Title(参考訳): エージェントAI:マルチモーダルインタラクションのホライズンを調査
- Authors: Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park,
Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi,
Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao
- Abstract要約: エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
- 参考スコア(独自算出の注目度): 83.18367129924997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal AI systems will likely become a ubiquitous presence in our
everyday lives. A promising approach to making these systems more interactive
is to embody them as agents within physical and virtual environments. At
present, systems leverage existing foundation models as the basic building
blocks for the creation of embodied agents. Embedding agents within such
environments facilitates the ability of models to process and interpret visual
and contextual data, which is critical for the creation of more sophisticated
and context-aware AI systems. For example, a system that can perceive user
actions, human behavior, environmental objects, audio expressions, and the
collective sentiment of a scene can be used to inform and direct agent
responses within the given environment. To accelerate research on agent-based
multimodal intelligence, we define "Agent AI" as a class of interactive systems
that can perceive visual stimuli, language inputs, and other
environmentally-grounded data, and can produce meaningful embodied actions. In
particular, we explore systems that aim to improve agents based on
next-embodied action prediction by incorporating external knowledge,
multi-sensory inputs, and human feedback. We argue that by developing agentic
AI systems in grounded environments, one can also mitigate the hallucinations
of large foundation models and their tendency to generate environmentally
incorrect outputs. The emerging field of Agent AI subsumes the broader embodied
and agentic aspects of multimodal interactions. Beyond agents acting and
interacting in the physical world, we envision a future where people can easily
create any virtual reality or simulated scene and interact with agents embodied
within the virtual environment.
- Abstract(参考訳): マルチモーダルAIシステムは、私たちの日常生活においてユビキタスな存在になるだろう。
これらのシステムをよりインタラクティブにするための有望なアプローチは、物理環境と仮想環境のエージェントとして具現化することだ。
現在、システムはエンボディエージェント作成のための基本的なビルディングブロックとして既存の基礎モデルを活用している。
このような環境にエージェントを埋め込むことで、モデルが視覚的およびコンテキスト的データを処理および解釈することが可能になる。
例えば、ユーザーの行動、人間の行動、環境オブジェクト、音声表現、シーンの集団感情を知覚できるシステムは、所定の環境内でエージェント応答を通知したり、指示したりするのに使うことができる。
エージェントベースのマルチモーダルインテリジェンスの研究を加速するために、視覚刺激、言語入力、その他の環境に接するデータを知覚し、有意義な実施行動を生み出すことのできる対話型システムとして「エージェントAI」を定義した。
特に,外的知識,多感覚入力,人的フィードバックを組み込んだ次世代行動予測に基づくエージェント改善を目的としたシステムについて検討する。
我々は,接地環境におけるエージェント型aiシステムの開発により,大規模基礎モデルの幻覚と環境的不正確なアウトプットの生成傾向を緩和できると主張している。
agent aiの新たな分野は、マルチモーダルインタラクションのより広範な具体化とエージェント的側面を消費する。
物理的な世界で行動し、相互作用するエージェント以外にも、バーチャルリアリティやシミュレートされたシーンを簡単に作成し、仮想環境に埋め込まれたエージェントと対話できる未来を想像する。
関連論文リスト
- EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment [38.14321677323052]
身体的人工知能は、エージェントの身体が人間のような行動を引き起こす役割を強調している。
本稿では,実環境におけるインテリジェンス評価のためのベンチマークプラットフォームを構築する。
論文 参考訳(メタデータ) (2024-10-12T17:49:26Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Signifiers as a First-class Abstraction in Hypermedia Multi-Agent
Systems [0.6595290783361959]
我々は、Webベースのマルチエージェントシステムにおいて、シグニケータを第一級の抽象化として導入するために、Affordance TheoryとHuman-Computer Interactionの概念と方法を構築した。
我々は,情報利用の促進を目的とした,ハイパーメディア環境におけるシグニチャの文脈曝露に関する形式モデルを定義した。
論文 参考訳(メタデータ) (2023-02-14T10:54:46Z) - Creating Multimodal Interactive Agents with Imitation and
Self-Supervised Learning [20.02604302565522]
SFからの一般的なビジョンは、ロボットはいつか私たちの物理的空間に住み、世界は私たちのように感じ、肉体労働を補助し、自然言語を通して私たちとコミュニケーションする、ということだ。
本稿では,仮想環境の単純化により人間と自然に対話できる人工エージェントを設計する方法について検討する。
シミュレーションされた世界における人間と人間の相互作用の模倣学習は、自己指導型学習と合わせて、多モーダルな対話型エージェントを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2021-12-07T15:17:27Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。