論文の概要: LM Agents for Coordinating Multi-User Information Gathering
- arxiv url: http://arxiv.org/abs/2502.12328v1
- Date: Mon, 17 Feb 2025 21:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:49.763405
- Title: LM Agents for Coordinating Multi-User Information Gathering
- Title(参考訳): マルチユーザ情報収集調整のためのLMエージェント
- Authors: Harsh Jhamtani, Jacob Andreas, Benjamin Van Durme,
- Abstract要約: PeopleJoinは、LMによる協調的な問題解決を評価するためのベンチマークである。
PeopleJoinは、PeopleJoin-QAとPeopleJoin-DocCreationの2つの評価ドメインで構成されている。
- 参考スコア(独自算出の注目度): 82.3543678605684
- License:
- Abstract: This paper introduces PeopleJoin, a benchmark for evaluating LM-mediated collaborative problem solving. Given a user request, PeopleJoin agents must identify teammates who might be able to assist, converse with these teammates to gather information, and finally compile a useful answer or summary for the original user. PeopleJoin comprises two evaluation domains: PeopleJoin-QA, focused on questions about tabular data, and PeopleJoin-DocCreation, focused on document creation tasks. The two domains are adapted from existing NLP benchmarks for database question answering and multi-document summarization; here, however, the information needed to complete these tasks is distributed across synthetic ``organizations'' of 2--20 users, simulating natural multi-user collaboration scenarios. We implemented several popular LM agent architectures, evaluating their accuracy and efficiency at completing tasks, and highlight new research questions that can be studied using PeopleJoin.
- Abstract(参考訳): 本稿では,LMを用いた協調的問題解決のためのベンチマークであるPeopleJoinを紹介する。
ユーザからの要望があれば、PeopleJoinのエージェントは、助けられるかもしれないチームメイトを特定し、これらのチームメイトと会話して情報を収集し、最終的に元のユーザに対して有用な回答や要約をコンパイルしなければならない。
PeopleJoinは、表データに関する質問に焦点を当てたPeopleJoin-QAと、ドキュメント作成タスクに焦点を当てたPeopleJoin-DocCreationの2つの評価ドメインで構成されている。
2つのドメインは、データベース質問応答とマルチドキュメント要約のための既存のNLPベンチマークから適応しているが、ここでは、これらのタスクを完了するために必要な情報は、2~20人の合成'組織'に分散し、自然なマルチユーザコラボレーションシナリオをシミュレートする。
我々は、いくつかの人気のあるLMエージェントアーキテクチャを実装し、タスク完了時の精度と効率を評価し、PeopleJoinを使って研究できる新しい研究課題を強調した。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Into the Unknown Unknowns: Engaged Human Learning through Participation in Language Model Agent Conversations [8.848859080368799]
協調的なSTORMは、複数のLMエージェント間の会話を観察し、管理することを可能にする。
エージェントはユーザの代理として質問を行い、未知の未知をセレンディピティーに発見する。
自動評価のために,実際の情報検索記録をユーザ目標として収集し,WildSeekデータセットを構築する。
論文 参考訳(メタデータ) (2024-08-27T17:50:03Z) - HR-MultiWOZ: A Task Oriented Dialogue (TOD) Dataset for HR LLM Agent [6.764665650605542]
10のHRドメインにまたがる550の会話の完全なラベル付きデータセットであるHR-Multiwozを紹介した。
NLP研究のためのHRドメインにおける最初のラベル付きオープンソースの会話データセットである。
データ解析と人的評価とともに、データ生成手順の詳細なレシピを提供する。
論文 参考訳(メタデータ) (2024-02-01T21:10:44Z) - An Interactive Query Generation Assistant using LLM-based Prompt
Modification and User Feedback [9.461978375200102]
提案するインタフェースは,単言語および多言語文書コレクション上での対話型クエリ生成をサポートする,新しい検索インタフェースである。
このインタフェースにより、ユーザーは異なるLCMによって生成されたクエリを洗練し、検索したドキュメントやパスに対するフィードバックを提供し、より効果的なクエリを生成するプロンプトとしてユーザーのフィードバックを組み込むことができる。
論文 参考訳(メタデータ) (2023-11-19T04:42:24Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z) - Mining Shape of Expertise: A Novel Approach Based on Convolutional
Neural Network [4.129225533930966]
知識のある人材を求職者に求めているリクルーターは、エキスパート発見システムの最も重要な顧客である。
この懸念に対処する効果的な解決策は、コスト効率のよいT字型のエキスパートを雇うことです。
我々は、畳み込みニューラルネットワークに基づくT字型エキスパートのための新しい深層モデルを提案した。
論文 参考訳(メタデータ) (2020-04-05T12:44:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。