論文の概要: Generative agents in the streets: Exploring the use of Large Language
Models (LLMs) in collecting urban perceptions
- arxiv url: http://arxiv.org/abs/2312.13126v1
- Date: Wed, 20 Dec 2023 15:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 15:04:37.798512
- Title: Generative agents in the streets: Exploring the use of Large Language
Models (LLMs) in collecting urban perceptions
- Title(参考訳): 街路における生成エージェント:都市感収集における大規模言語モデル(LLM)の利用を探る
- Authors: Deepank Verma, Olaf Mumm, Vanessa Miriam Carlow
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いた生成エージェントの現況について検討する。
この実験では、都市環境と対話するための生成エージェントを用いて、ストリートビューイメージを使用して、特定の目標に向けて旅を計画する。
LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating the surroundings to gain understanding, frame perspectives, and
anticipate behavioral reactions is an inherent human trait. However, these
continuous encounters are diverse and complex, posing challenges to their study
and experimentation. Researchers have been able to isolate environmental
features and study their effect on human perception and behavior. However, the
research attempts to replicate and study human behaviors with proxies, such as
by integrating virtual mediums and interviews, have been inconsistent. Large
language models (LLMs) have recently been unveiled as capable of contextual
understanding and semantic reasoning. These models have been trained on large
amounts of text and have evolved to mimic believable human behavior. This study
explores the current advancements in Generative agents powered by LLMs with the
help of perceptual experiments. The experiment employs Generative agents to
interact with the urban environments using street view images to plan their
journey toward specific goals. The agents are given virtual personalities,
which make them distinguishable. They are also provided a memory database to
store their thoughts and essential visual information and retrieve it when
needed to plan their movement. Since LLMs do not possess embodiment, nor have
access to the visual realm, and lack a sense of motion or direction, we
designed movement and visual modules that help agents gain an overall
understanding of surroundings. The agents are further employed to rate the
surroundings they encounter based on their perceived sense of safety and
liveliness. As these agents store details in their memory, we query the
findings to get details regarding their thought processes. Overall, this study
experiments with current AI developments and their potential in simulated human
behavior in urban environments.
- Abstract(参考訳): 理解、枠組みの視点、行動反応を予想する環境を評価することは、人間の本質的な特性である。
しかし、これらの継続的な出会いは多様で複雑であり、研究と実験に挑戦する。
研究者は環境の特徴を分離し、人間の知覚と行動への影響を研究することができた。
しかし、仮想媒体やインタビューを統合するなど、プロキシによる人間の行動の再現と研究の試みは相容れない。
大規模言語モデル(llm)は最近、文脈理解と意味的推論の能力として明らかにされている。
これらのモデルは大量のテキストで訓練され、人間の振る舞いを模倣するように進化してきた。
本研究では,LLMを用いたジェネレーションエージェントの現況について,知覚実験の助けを借りて検討する。
実験では、生成エージェントを用いて、ストリートビュー画像を用いて都市環境と対話し、特定の目標に向かっての旅を計画する。
エージェントには仮想的な個性が与えられ、区別できる。
また、思考や重要な視覚情報を記憶し、動きを計画するために必要なときに取り出すための記憶データベースも提供される。
LLMにはエンボディメントがなく、視覚領域にもアクセスできず、動きや方向の感覚も欠如しているため、エージェントが周囲の全体的理解を得るのに役立つ動きと視覚モジュールを設計した。
エージェントはさらに、彼らの安全感と生活意識に基づいて、遭遇する環境を評価するために雇われる。
これらのエージェントはメモリに詳細を格納するので、研究結果に問い合わせて、彼らの思考プロセスの詳細を確認する。
本研究は、都市環境における人間の行動シミュレーションにおける現在のAI開発とその可能性に関する実験である。
関連論文リスト
- Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Understanding Your Agent: Leveraging Large Language Models for Behavior
Explanation [7.647395374489533]
本研究では,状態や行動の観察のみに基づいて,エージェントの行動に関する自然言語説明を生成する手法を提案する。
提案手法は,人間ドメインの専門家が作成したものと同じくらい役立つ説明を生成する。
論文 参考訳(メタデータ) (2023-11-29T20:16:23Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - I am Only Happy When There is Light: The Impact of Environmental Changes
on Affective Facial Expressions Recognition [65.69256728493015]
本研究では,異なる画像条件が人間の表情からの覚醒の認識に与える影響について検討した。
以上の結果から,人間の感情状態の解釈が肯定的,否定的に大きく異なることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T16:28:26Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - The Introspective Agent: Interdependence of Strategy, Physiology, and
Sensing for Embodied Agents [51.94554095091305]
本論では, 環境の文脈において, 自己能力を考慮した内省的エージェントについて論じる。
自然と同じように、私たちは戦略を1つのツールとして再編成して、環境において成功させたいと考えています。
論文 参考訳(メタデータ) (2022-01-02T20:14:01Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Causal Curiosity: RL Agents Discovering Self-supervised Experiments for
Causal Representation Learning [24.163616087447874]
心因性好奇心(em causal curiosity)は,本質的な報酬である。
エージェントが最適な行動列を学習できることを示す。
また、因果因子表現の知識は、より複雑なタスクにおいてゼロショット学習に役立つことを示す。
論文 参考訳(メタデータ) (2020-10-07T02:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。