Fugu-MT 論文翻訳(概要): Characteristic AI Agents via Large Language Models

論文の概要: Characteristic AI Agents via Large Language Models

arxiv url: http://arxiv.org/abs/2403.12368v1
Date: Tue, 19 Mar 2024 02:25:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:41:42.623468
Title: Characteristic AI Agents via Large Language Models
Title（参考訳）: 大規模言語モデルによる特徴的AIエージェント
Authors: Xi Wang, Hongliang Dai, Shen Gao, Piji Li,
Abstract要約: 本研究は,特有なAIエージェント構築における大規模言語モデルの性能調査に焦点をあてる。 character100''と呼ばれるデータセットがこのベンチマークのために構築されており、ウィキペディアの言語モデルでロールプレイを行う最も訪問者の多い人々で構成されている。実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。
参考スコア（独自算出の注目度）: 40.10858767752735
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The advancement of Large Language Models (LLMs) has led to significant enhancements in the performance of chatbot systems. Many researchers have dedicated their efforts to the development of bringing characteristics to chatbots. While there have been commercial products for developing role-driven chatbots using LLMs, it is worth noting that academic research in this area remains relatively scarce. Our research focuses on investigating the performance of LLMs in constructing Characteristic AI Agents by simulating real-life individuals across different settings. Current investigations have primarily focused on act on roles with simple profiles. In response to this research gap, we create a benchmark for the characteristic AI agents task, including dataset, techniques, and evaluation metrics. A dataset called ``Character100'' is built for this benchmark, comprising the most-visited people on Wikipedia for language models to role-play. With the constructed dataset, we conduct comprehensive assessment of LLMs across various settings. In addition, we devise a set of automatic metrics for quantitative performance evaluation. The experimental results underscore the potential directions for further improvement in the capabilities of LLMs in constructing characteristic AI agents. The benchmark is available at https://github.com/nuaa-nlp/Character100.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、チャットボットシステムの性能を大幅に向上させた。多くの研究者が、チャットボットに特徴をもたらす開発に力を注いでいる。 LLMを用いたロール駆動型チャットボットを開発するための商用製品は存在するが、この分野の学術研究は比較的少ないことは注目に値する。本研究は,異なる環境における実生活の個人をシミュレートすることで,特徴的AIエージェント構築におけるLLMの性能調査に焦点をあてる。現在の調査は、主に単純なプロファイルを持つ役割の行動に焦点を当てている。この研究ギャップに対応するために、私たちは、データセット、テクニック、評価指標を含む、特徴的なAIエージェントタスクのベンチマークを作成します。このベンチマークには '`Character100'' というデータセットが構築されている。構築したデータセットを用いて,様々な環境におけるLCMの包括的評価を行う。さらに,定量的性能評価のための自動測定値のセットを考案した。実験結果から,LLMの能力向上に向けた潜在的な方向性が明らかにされた。ベンチマークはhttps://github.com/nuaa-nlp/Character100で公開されている。

関連論文リスト

Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey [45.485318955120924]
従来の大規模言語モデル(LLM)からより高度なAIエージェントへの移行は、重要な進化のステップである。既存の評価フレームワークは、LLMチャットボットとAIエージェントの区別を曖昧にし、適切なベンチマークを選択する研究者の間で混乱を招くことが多い。本稿では,進化的観点からの現在の評価手法の体系的分析を紹介する。
論文参考訳（メタデータ） (2025-06-06T17:52:18Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant [16.006675944380078]
Auto-SLURPは、インテリジェントパーソナルアシスタントのコンテキストにおけるLLMベースのマルチエージェントフレームワークの評価を目的としたベンチマークデータセットである。 Auto-SLURPは、データを緩和し、シミュレートされたサーバと外部サービスを統合することで、元のSLURPデータセットを拡張している。我々の実験は、Auto-SLURPが現在の最先端フレームワークに重大な課題をもたらすことを示した。
論文参考訳（メタデータ） (2025-04-25T14:17:47Z)
ChatGPT or A Silent Everywhere Helper: A Survey of Large Language Models [0.0]
Chat Generative Pre-trained Transformer (ChatGPT)は、その高度な機能と広範なアプリケーションに対する顕著な例である。この調査は、ChatGPTの包括的な分析を提供し、アーキテクチャ、トレーニングプロセス、機能について調査する。
論文参考訳（メタデータ） (2025-03-19T22:55:08Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文参考訳（メタデータ） (2024-10-29T21:38:42Z)
Probing Ranking LLMs: Mechanistic Interpretability in Information Retrieval [22.875174888476295]
我々は最先端の微調整型変圧器ネットワークの動作について検討する。我々のアプローチは、LLM内のニューロンの探索に基づく層間層解析である。ネットワークのアクティベーションの中で、既知の人間工学的・意味的な特徴の個人またはグループを特定する。
論文参考訳（メタデータ） (2024-10-24T08:20:10Z)
Automated test generation to evaluate tool-augmented LLMs as conversational AI agents [0.27309692684728615]
対話型AIエージェントを評価するテスト生成パイプラインを提案する。当社のフレームワークでは,ユーザ定義の手順に基づく多種多様なテストを生成するためにLLMを使用している。ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。
論文参考訳（メタデータ） (2024-09-24T09:57:43Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文参考訳（メタデータ） (2024-06-11T14:02:23Z)
Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文参考訳（メタデータ） (2024-04-19T09:10:29Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Deciphering Digital Detectives: Understanding LLM Behaviors and Capabilities in Multi-Agent Mystery Games [26.07074182316433]
本稿では,Jubenshaに特化している最初のデータセットについて紹介する。我々の研究は、LSMを使ったユニークなマルチエージェントインタラクションフレームワークも提供し、AIエージェントがこのゲームに自律的に関与できるようにする。これらのAIエージェントのゲーム性能を評価するために,ケース情報と推論スキルの熟達度を測定する新しい手法を開発した。
論文参考訳（メタデータ） (2023-12-01T17:33:57Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。