論文の概要: LongAgent: Scaling Language Models to 128k Context through Multi-Agent
Collaboration
- arxiv url: http://arxiv.org/abs/2402.11550v1
- Date: Sun, 18 Feb 2024 11:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:35:58.111012
- Title: LongAgent: Scaling Language Models to 128k Context through Multi-Agent
Collaboration
- Title(参考訳): LongAgent: マルチエージェントコラボレーションによる言語モデルから128kコンテキストへのスケーリング
- Authors: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi
Zhang, Xuanjing Huang
- Abstract要約: textscLongAgentはマルチエージェントのコラボレーションに基づいており、128Kのコンテキストにスケールする。
LLaMA-7Bでインスタンス化されたエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクにおいて、GPT-4に比べて大幅に改善されている。
- 参考スコア(独自算出の注目度): 47.861310541425766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance in
understanding language and executing complex reasoning tasks. However, LLMs
with long context windows have been notorious for their expensive training
costs and high inference latency. Even the most advanced models such as GPT-4
and Claude2 often make mistakes when processing inputs of over $100k$ tokens, a
phenomenon also known as \textit{lost in the middle}. In this paper, we propose
\textsc{LongAgent}, a method based on multi-agent collaboration, which scales
LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority
in long-text processing compared to GPT-4. In \textsc{LongAgent}, a leader is
responsible for understanding user intent and directing team members to acquire
information from documents. Due to members' hallucinations, it is non-trivial
for a leader to obtain accurate information from the responses of dozens to
hundreds of members. To address this, we develop an \textit{inter-member
communication} mechanism to resolve response conflicts caused by hallucinations
through information sharing. Our experimental results indicate that
\textsc{LongAgent} offers a promising alternative for long-text processing. The
agent team instantiated with LLaMA-7B achieves significant improvements in
tasks such as 128k-long text retrieval, multi-hop question answering, compared
to GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語理解と複雑な推論タスクの実行において優れたパフォーマンスを示している。
しかし、長いコンテキストウィンドウを持つLLMは、高価なトレーニングコストと高い推論遅延で有名である。
GPT-4やClaude2のような最も先進的なモデルでさえ、100kドルを超えるトークンの入力を処理するときにしばしば間違いを犯す。
本稿では、128Kの文脈にLLM(LLaMA)を拡大し、GPT-4と比較して長文処理において潜在的優位性を示すマルチエージェント協調に基づく手法である \textsc{LongAgent} を提案する。
textsc{longagent}では、リーダーはユーザーの意図を理解し、チームメンバーに文書から情報を取得するよう指示する責任がある。
メンバーの幻覚のため、リーダーが数十人から数百人のメンバーの反応から正確な情報を得るのは自明ではない。
これに対処するために,情報共有による幻覚による応答競合を解決するための \textit{inter-member communication} メカニズムを開発した。
実験結果から, <textsc{LongAgent} が長文処理の代替となる可能性が示唆された。
LLaMA-7Bでインスタンス化したエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクを、GPT-4と比べて大幅に改善した。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。
200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。
以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。
GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文 参考訳(メタデータ) (2024-04-30T12:43:53Z) - A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts [35.68159165639245]
本実験では,有効文脈長を最大20倍に向上させるエージェントシステムであるReadAgentを提案する。
人間が長い文書を対話的に読む方法に触発され、簡単なプロンプトシステムとしてReadAgentを実装した。
本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
論文 参考訳(メタデータ) (2024-02-15T05:40:21Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。