論文の概要: TeamLLM: A Human-Like Team-Oriented Collaboration Framework for Multi-Step Contextualized Tasks
- arxiv url: http://arxiv.org/abs/2604.06765v1
- Date: Wed, 08 Apr 2026 07:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.400201
- Title: TeamLLM: A Human-Like Team-Oriented Collaboration Framework for Multi-Step Contextualized Tasks
- Title(参考訳): TeamLLM: マルチステップコンテキスト化タスクのためのヒューマンライクなチーム指向コラボレーションフレームワーク
- Authors: Xiangyu Wang, Jin Wu, Haoran Shi, Wei Xia, Jiarui Yu, Chanjin Zheng,
- Abstract要約: チーム指向多目的協調フレームワークTeamLLMを提案する。
TeamLLMは4つのチームの役割をそれぞれ異なる分割で採用し、マルチステップのコンテキスト化タスクに3フェーズのマルチLLMコラボレーションを採用している。
シナリオ,フルプロセス応答,10 LLMの人的スコアのベンチマークを公開しています。
- 参考スコア(独自算出の注目度): 13.901140417369367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, multi-Large Language Model (LLM) frameworks have been proposed to solve contextualized tasks. However, these frameworks do not explicitly emulate human team role division, which may lead to a single perspective, thereby weakening performance on multi-step contextualized tasks. To address this issue, we propose TeamLLM, a human-like Team-Oriented Multi-LLM Collaboration Framework. TeamLLM adopts four team roles with distinct division and employs a three-phase multi-LLM collaboration for multi-step contextualized tasks. To evaluate the effectiveness of TeamLLM on multi-step contextualized tasks, we propose Contextually-Grounded and Procedurally-Structured tasks (CGPST) and construct the CGPST benchmark. This benchmark has four core features: contextual grounding, procedural structure, process-oriented evaluation and multi-dimensional assessment. We evaluate ten popular LLMs on CGPST at overall-level, step-level, and dimension-level. Results show that TeamLLM substantially improves performance on CGPST. We release the benchmark with scenarios, full-process responses and human scores from ten LLMs. The code and data are available at https://anonymous.4open.science/r/TeamLLM-anonymous-C50E/.
- Abstract(参考訳): 近年,文脈化されたタスクを解決するために,多言語モデル(LLM)フレームワークが提案されている。
しかしながら、これらのフレームワークは、人間のチームの役割分割を明示的にエミュレートしていないため、単一の視点に導かれる可能性があるため、多段階のコンテキスト化されたタスクのパフォーマンスが低下する。
この問題に対処するため、我々はTeamLLM(Team-Oriented Multi-LLM Collaboration Framework)を提案する。
TeamLLMは4つのチームの役割をそれぞれ異なる分割で採用し、マルチステップのコンテキスト化タスクに3フェーズのマルチLLMコラボレーションを採用している。
複数段階の文脈的タスクに対するTeamLLMの有効性を評価するために,CGPST を用いた文脈的・手続き的タスク (CGPST) を提案し,CGPST ベンチマークを構築した。
このベンチマークには、コンテキストグラウンド、手続き構造、プロセス指向評価、多次元評価の4つのコア機能がある。
CGPST上の10のLLMを,全体レベル,ステップレベル,次元レベルで評価した。
その結果,TeamLLMはCGPSTの性能を大幅に向上することがわかった。
シナリオ,フルプロセス応答,10 LLMの人的スコアのベンチマークを公開しています。
コードとデータはhttps://anonymous.4open.science/r/TeamLLM-anonymous-C50E/で公開されている。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents [21.328894420020443]
LLM(Large Language Models)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。
本稿では,インタラクティブ環境において,より適用性が高く,課題の多いOvercooked-AIゲーム上に構築された新しいベンチマークであるCollab-Overcookedを提案する。
論文 参考訳(メタデータ) (2025-02-27T13:31:13Z) - When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。
既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。
コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文 参考訳(メタデータ) (2025-02-06T21:13:44Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。