論文の概要: Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level
- arxiv url: http://arxiv.org/abs/2404.05337v1
- Date: Mon, 8 Apr 2024 09:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.693620
- Title: Towards Objectively Benchmarking Social Intelligence for Language Agents at Action Level
- Title(参考訳): 行動レベルにおける言語エージェントのための客観的なソーシャルインテリジェンスベンチマークに向けて
- Authors: Chenxu Wang, Bin Dai, Huaping Liu, Baoyuan Wang,
- Abstract要約: 社会シミュレーションタスク (Social Simulation Tasks in Sandbox, STSS) は、マルチエージェントシミュレーションのための言語レベルのベンチマークである。
我々の評価結果は、STSSベンチマークが最先端の言語エージェントに挑戦していることを示している。
- 参考スコア(独自算出の注目度): 23.833528781431884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prominent large language models have exhibited human-level performance in many domains, even enabling the derived agents to simulate human and social interactions. While practical works have substantiated the practicability of grounding language agents in sandbox simulation or embodied simulators, current social intelligence benchmarks either stay at the language level or use subjective metrics. In pursuit of a more realistic and objective evaluation, we introduce the Social Tasks in Sandbox Simulation (STSS) benchmark, which assesses language agents \textbf{objectively} at the \textbf{action level} by scrutinizing the goal achievements within the multi-agent simulation. Additionally, we sample conversation scenarios to build a language-level benchmark to provide an economically prudent preliminary evaluation and align with prevailing benchmarks. To gauge the significance of agent architecture, we implement a target-driven planning (TDP) module as an adjunct to the existing agent. Our evaluative findings highlight that the STSS benchmark is challenging for state-of-the-art language agents. Furthermore, it effectively discriminates between distinct language agents, suggesting its usefulness as a benchmark for evaluating both language models and agent architectures.
- Abstract(参考訳): 著名な大規模言語モデルは、多くのドメインにおいて人間レベルのパフォーマンスを示しており、派生したエージェントが人間と社会の相互作用をシミュレートすることさえ可能である。
現実的な研究は、サンドボックスシミュレーションやエボデードシミュレーターにおける接地言語エージェントの実践性を裏付けてきたが、現在のソーシャルインテリジェンスベンチマークは、言語レベルにとどまるか、主観的なメトリクスを使用するかのいずれかである。
より現実的で客観的な評価を追求するために,マルチエージェントシミュレーションにおける目標達成点を精査することにより,言語エージェントの「textbf{objectively}」を「textbf{action level}」で評価する「Social Tasks in Sandbox Simulation (STSS)」ベンチマークを導入する。
さらに,対話シナリオをサンプルとして,言語レベルのベンチマークを構築し,経済的に慎重な予備評価を行い,一般的なベンチマークと整合する。
エージェント・アーキテクチャの意義を評価するため,既存のエージェントに付随するターゲット駆動型プランニング(TDP)モジュールを実装した。
我々の評価結果は、STSSベンチマークが最先端の言語エージェントに挑戦していることを示している。
さらに、異なる言語エージェントを効果的に識別し、言語モデルとエージェントアーキテクチャの両方を評価するためのベンチマークとしての有用性を示唆している。
関連論文リスト
- QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - LMUnit: Fine-grained Evaluation with Natural Language Unit Tests [43.096722878672956]
応答品質を明示的でテスト可能な基準に分解するパラダイムである自然言語単体テストを導入する。
このパラダイムは、アノテーション間の合意を大幅に改善し、より効果的な開発を可能にする。
LMUnitは、評価ベンチマークとRewardBenchの競争結果で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-17T17:01:15Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Pseudointelligence: A Unifying Framework for Language Model Evaluation [14.95543156914676]
本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:48:05Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。
予測コヒーレンスの新しい尺度による評価システムを提案する。
論文 参考訳(メタデータ) (2021-09-10T15:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。