Fugu-MT 論文翻訳(概要): Evaluating Cultural and Social Awareness of LLM Web Agents

論文の概要: Evaluating Cultural and Social Awareness of LLM Web Agents

arxiv url: http://arxiv.org/abs/2410.23252v1
Date: Wed, 30 Oct 2024 17:35:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.464091
Title: Evaluating Cultural and Social Awareness of LLM Web Agents
Title（参考訳）: LLM Webエージェントの文化的・社会的意識の評価
Authors: Haoyi Qiu, Alexander R. Fabbri, Divyansh Agarwal, Kung-Hsiang Huang, Sarah Tan, Nanyun Peng, Chien-Sheng Wu,
Abstract要約: CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
参考スコア（独自算出の注目度）: 113.49968423990616
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) expand into performing as agents for real-world applications beyond traditional NLP tasks, evaluating their robustness becomes increasingly important. However, existing benchmarks often overlook critical dimensions like cultural and social awareness. To address these, we introduce CASA, a benchmark designed to assess LLM agents' sensitivity to cultural and social norms across two web-based tasks: online shopping and social discussion forums. Our approach evaluates LLM agents' ability to detect and appropriately respond to norm-violating user queries and observations. Furthermore, we propose a comprehensive evaluation framework that measures awareness coverage, helpfulness in managing user queries, and the violation rate when facing misleading web content. Experiments show that current LLMs perform significantly better in non-agent than in web-based agent environments, with agents achieving less than 10% awareness coverage and over 40% violation rates. To improve performance, we explore two methods: prompting and fine-tuning, and find that combining both methods can offer complementary advantages -- fine-tuning on culture-specific datasets significantly enhances the agents' ability to generalize across different regions, while prompting boosts the agents' ability to navigate complex tasks. These findings highlight the importance of constantly benchmarking LLM agents' cultural and social awareness during the development cycle.
Abstract（参考訳）: 大規模言語モデル(LLM)が従来のNLPタスクを超えて現実世界のアプリケーションのエージェントとして機能するようになると、その堅牢性を評価することがますます重要になる。しかし、既存のベンチマークは、しばしば文化的、社会的認識などの重要な側面を見落としている。 CASAは,LLMエージェントの文化的・社会的規範に対する感受性を評価するためのベンチマークであり,オンラインショッピングとソーシャルディスカッションフォーラムである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。さらに,ユーザクエリ管理における意識的カバレッジ,有用性,誤解を招くWebコンテンツに直面する場合の違反率を総合的に評価するフレームワークを提案する。実験により、現在のLLMは、Webベースのエージェント環境よりもはるかに優れた性能を示し、エージェントは10%未満の意識カバレッジを達成し、40%以上の違反率を達成した。両手法を組み合わせることで相補的なメリットが得られます -- 文化固有のデータセットを微調整することで,エージェントのさまざまな領域での一般化能力が大幅に向上すると同時に,エージェントが複雑なタスクをナビゲートする能力も向上します。これらの知見は、開発サイクルにおけるLLMエージェントの文化的・社会的意識を常に評価することの重要性を浮き彫りにした。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
Agent-to-Agent Theory of Mind: Testing Interlocutor Awareness among Large Language Models [12.190536939842525]
大規模言語モデル(LLM)は、マルチエージェントやヒューマンAIシステムに統合されつつある。本稿では,対話相手の同一性と特徴を識別し,適応する能力について定式化する。 GPT や Claude など,LLM が同一家族の同族や著名なモデルファミリを確実に識別できることを示す。
論文参考訳（メタデータ） (2025-06-28T17:22:59Z)
Contextual Experience Replay for Self-Improvement of Language Agents [47.51006612841945]
本稿では,言語エージェントに対する効率的な自己改善を実現するために,コンテキスト体験リプレイ(CER)を提案する。 CERは過去の経験を蓄積し、動的メモリバッファに合成する。我々は WebArena と VisualWebArena のベンチマークで CER を評価した。
論文参考訳（メタデータ） (2025-06-07T07:47:35Z)
CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions [85.88573535033406]
CRMArena-Proは、多種多様なプロフェッショナル環境でのLLMエージェントの総合的で現実的な評価のための新しいベンチマークである。多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションが組み込まれている。実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
論文参考訳（メタデータ） (2025-05-24T21:33:22Z)
Can a Large Language Model Assess Urban Design Quality? Evaluating Walkability Metrics Across Expertise Levels [0.0]
都市環境は公共空間における人間の活動を支援するのに不可欠である。ストリートビュー画像(SVI)や大規模言語モデル(MLLM)といったビッグデータの出現は、研究者や実践者が都市環境を調査し、測定し、評価する方法を変えつつある。本研究では,都市デザインの質を評価する上で,専門家知識の統合がMLLMの性能に与える影響について検討する。
論文参考訳（メタデータ） (2025-04-28T09:41:17Z)
CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文参考訳（メタデータ） (2024-11-04T17:30:51Z)
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文参考訳（メタデータ） (2024-10-26T22:45:56Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文参考訳（メタデータ） (2024-06-11T00:35:39Z)
Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs [22.568925103893182]
我々は、強化学習(RL)と大言語モデル(LLM)を統合することにより、オープンエンドテキストベースの学習環境におけるエージェントの一般化能力の向上を目指す。 PharmaSimTextは、診断会話を実践するために設計された、PharmaSim仮想薬局環境から派生した新しいベンチマークである。以上の結果から, RLをベースとしたエージェントは, タスク完了に優れるが, 品質診断質問の欠如が示唆された。
論文参考訳（メタデータ） (2024-04-29T14:53:48Z)
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。 CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文参考訳（メタデータ） (2024-04-10T00:25:09Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文参考訳（メタデータ） (2023-08-20T03:03:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。