論文の概要: Characteristic AI Agents via Large Language Models
- arxiv url: http://arxiv.org/abs/2403.12368v1
- Date: Tue, 19 Mar 2024 02:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:41:42.623468
- Title: Characteristic AI Agents via Large Language Models
- Title(参考訳): 大規模言語モデルによる特徴的AIエージェント
- Authors: Xi Wang, Hongliang Dai, Shen Gao, Piji Li,
- Abstract要約: 本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。
character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
- 参考スコア(独自算出の注目度): 40.10858767752735
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The advancement of Large Language Models (LLMs) has led to significant enhancements in the performance of chatbot systems. Many researchers have dedicated their efforts to the development of bringing characteristics to chatbots. While there have been commercial products for developing role-driven chatbots using LLMs, it is worth noting that academic research in this area remains relatively scarce. Our research focuses on investigating the performance of LLMs in constructing Characteristic AI Agents by simulating real-life individuals across different settings. Current investigations have primarily focused on act on roles with simple profiles. In response to this research gap, we create a benchmark for the characteristic AI agents task, including dataset, techniques, and evaluation metrics. A dataset called ``Character100'' is built for this benchmark, comprising the most-visited people on Wikipedia for language models to role-play. With the constructed dataset, we conduct comprehensive assessment of LLMs across various settings. In addition, we devise a set of automatic metrics for quantitative performance evaluation. The experimental results underscore the potential directions for further improvement in the capabilities of LLMs in constructing characteristic AI agents. The benchmark is available at https://github.com/nuaa-nlp/Character100.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、チャットボットシステムの性能を大幅に向上させた。
多くの研究者が、チャットボットに特徴をもたらす開発に力を注いでいる。
LLMを用いたロール駆動型チャットボットを開発するための商用製品は存在するが、この分野の学術研究は比較的少ないことは注目に値する。
本研究は,異なる環境における実生活の個人をシミュレートすることで,特徴的AIエージェント構築におけるLLMの性能調査に焦点をあてる。
現在の調査は、主に単純なプロファイルを持つ役割の行動に焦点を当てている。
この研究ギャップに対応するために、私たちは、データセット、テクニック、評価指標を含む、特徴的なAIエージェントタスクのベンチマークを作成します。
このベンチマークには '`Character100'' というデータセットが構築されている。
構築したデータセットを用いて,様々な環境におけるLCMの包括的評価を行う。
さらに,定量的性能評価のための自動測定値のセットを考案した。
実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
ベンチマークはhttps://github.com/nuaa-nlp/Character100で公開されている。
関連論文リスト
- Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。
これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。
これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文 参考訳(メタデータ) (2024-04-19T09:10:29Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Deciphering Digital Detectives: Understanding LLM Behaviors and
Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。
我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。
これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-12-01T17:33:57Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。