論文の概要: LongAgent: Scaling Language Models to 128k Context through Multi-Agent
Collaboration
- arxiv url: http://arxiv.org/abs/2402.11550v2
- Date: Wed, 13 Mar 2024 07:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:34.852706
- Title: LongAgent: Scaling Language Models to 128k Context through Multi-Agent
Collaboration
- Title(参考訳): LongAgent:マルチエージェントによる言語モデルから128kコンテキストへのスケーリング
コラボレーション
- Authors: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi
Zhang, Xuanjing Huang
- Abstract要約: textscLongAgentはマルチエージェントのコラボレーションに基づいており、128Kのコンテキストにスケールする。
LLaMA-7Bでインスタンス化されたエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクにおいて、GPT-4に比べて大幅に改善されている。
- 参考スコア(独自算出の注目度): 47.861310541425766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over $100k$ tokens, a
phenomenon also known as \textit{lost in the middle}. In this paper, we propose
\textsc{LongAgent}, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In \textsc{LongAgent}, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an \textit{inter-member
communication} mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
\textsc{LongAgent} offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解と複雑な推論タスクの実行において、優れたパフォーマンスを示している。
しかし、長いコンテキストウィンドウを持つLLMは、高価なトレーニングコストと高い推論遅延で悪名高い。
GPT-4やClaude2のような最も先進的なモデルでさえ、100kドルを超えるトークンの入力を処理するときにしばしば間違いを犯す。
本稿では、128KのコンテキストにLLM(eg, LLaMA)をスケールし、GPT-4と比較して長文処理において潜在的優位性を示すマルチエージェント協調に基づく手法である \textsc{LongAgent} を提案する。
textsc{LongAgent} では、リーダーがユーザの意図を理解し、チームメンバにドキュメントから情報を取得するように指示する役割を担います。
メンバーの幻覚のため、リーダーが数十人から数百人のメンバーの反応から正確な情報を得るのは簡単ではない。
これを解決するために,情報共有による幻覚による応答競合を解決するための「textit{inter-member communication}」機構を開発した。
実験結果から, <textsc{LongAgent} が長文処理の代替となる可能性が示唆された。
LLaMA-7Bでインスタンス化したエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクを、GPT-4と比べて大幅に改善した。
関連論文リスト
- Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts [38.28085124489118]
本実験では,有効文脈長を最大20倍に向上させるエージェントシステムであるReadAgentを提案する。
人間が長い文書を対話的に読む方法に触発され、簡単なプロンプトシステムとしてReadAgentを実装した。
本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
論文 参考訳(メタデータ) (2024-02-15T05:40:21Z) - CogAgent: A Visual Language Model for GUI Agents [61.26491779502794]
GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。
低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。
CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技術の現状を達成している。
論文 参考訳(メタデータ) (2023-12-14T13:20:57Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models [61.06694491246026]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。