論文の概要: AgentSociety Challenge: Designing LLM Agents for User Modeling and Recommendation on Web Platforms
- arxiv url: http://arxiv.org/abs/2502.18754v1
- Date: Wed, 26 Feb 2025 02:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:19.735675
- Title: AgentSociety Challenge: Designing LLM Agents for User Modeling and Recommendation on Web Platforms
- Title(参考訳): AgentSociety Challenge: Web プラットフォーム上でのユーザモデリングとレコメンデーションのための LLM エージェントの設計
- Authors: Yuwei Yan, Yu Shang, Qingbin Zeng, Yu Li, Keyu Zhao, Zhiheng Zheng, Xuefei Ning, Tianji Wu, Shengen Yan, Yu Wang, Fengli Xu, Yong Li,
- Abstract要約: AgentSociety Challengeは、Large Language Model (LLM)エージェントの可能性を探究することを目的とした、Web Conferenceにおける最初のコンペティションである。
チャレンジは世界中に295のチームが参加し、37日間にわたって合計1,400以上の応募を受けた。
本稿では,挑戦の詳細な設計について論じ,その結果を分析し,最も成功したLLMエージェントの設計を強調した。
- 参考スコア(独自算出の注目度): 21.518109364403642
- License:
- Abstract: The AgentSociety Challenge is the first competition in the Web Conference that aims to explore the potential of Large Language Model (LLM) agents in modeling user behavior and enhancing recommender systems on web platforms. The Challenge consists of two tracks: the User Modeling Track and the Recommendation Track. Participants are tasked to utilize a combined dataset from Yelp, Amazon, and Goodreads, along with an interactive environment simulator, to develop innovative LLM agents. The Challenge has attracted 295 teams across the globe and received over 1,400 submissions in total over the course of 37 official competition days. The participants have achieved 21.9% and 20.3% performance improvement for Track 1 and Track 2 in the Development Phase, and 9.1% and 15.9% in the Final Phase, representing a significant accomplishment. This paper discusses the detailed designs of the Challenge, analyzes the outcomes, and highlights the most successful LLM agent designs. To support further research and development, we have open-sourced the benchmark environment at https://tsinghua-fib-lab.github.io/AgentSocietyChallenge.
- Abstract(参考訳): AgentSociety Challengeは、Webプラットフォーム上でのユーザ振る舞いのモデリングと推奨システムの強化におけるLarge Language Model (LLM)エージェントの可能性を探るための、Web Conferenceにおける最初のコンペティションである。
チャレンジは、ユーザーモデリングトラックとレコメンデーショントラックの2つのトラックで構成される。
参加者はYelp、Amazon、Goodreadsのデータセットとインタラクティブ環境シミュレータを併用して、革新的なLLMエージェントを開発することが義務付けられている。
チャレンジは世界中に295のチームが参加し、37日間にわたって合計1,400以上の応募を受けた。
参加者は、開発段階では21.9%と20.3%のパフォーマンス向上、最終段階では9.1%と15.9%を達成し、大きな成果を上げている。
本稿では,挑戦の詳細な設計について論じ,その結果を分析し,最も成功したLLMエージェントの設計を強調した。
さらなる研究と開発をサポートするため、ベンチマーク環境をhttps://tsinghua-fib-lab.github.io/AgentSocietyChallengeでオープンソース化しました。
関連論文リスト
- SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks [62.443665295250035]
第2023回中国影響コンピューティング会議(CCAC 2023)におけるAI-Debater 2023チャレンジの結果を提示する。
合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。
論文 参考訳(メタデータ) (2024-07-20T10:13:54Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - The Second Place Solution for ICCV2021 VIPriors Instance Segmentation
Challenge [6.087398773657721]
データ効率のよいコンピュータビジョンのためのビジュアルインダクティブプライオリティ(VIPriors)は、競合に対して、データ不足の環境でモデルをゼロからトレーニングするように求めている。
ICCV 2021 VIPriorsインスタンスセグメンテーションチャレンジの技術的詳細を紹介する。
ICCV 2021 VIPriors インスタンスセグメンテーションの試験セットで 40.2%AP@0.50:0.95 を達成することができる。
論文 参考訳(メタデータ) (2021-12-02T09:23:02Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。