Fugu-MT 論文翻訳(概要): LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

論文の概要: LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

arxiv url: http://arxiv.org/abs/2402.11550v2
Date: Wed, 13 Mar 2024 07:16:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 17:27:34.852706
Title: LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration
Title（参考訳）: LongAgent:マルチエージェントによる言語モデルから128kコンテキストへのスケーリングコラボレーション
Authors: Jun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang
Abstract要約: textscLongAgentはマルチエージェントのコラボレーションに基づいており、128Kのコンテキストにスケールする。 LLaMA-7Bでインスタンス化されたエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクにおいて、GPT-4に比べて大幅に改善されている。
参考スコア（独自算出の注目度）: 47.861310541425766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive performance in understanding language and executing complex reasoning tasks. However, LLMs with long context windows have been notorious for their expensive training costs and high inference latency. Even the most advanced models such as GPT-4 and Claude2 often make mistakes when processing inputs of over $100k$ tokens, a phenomenon also known as \textit{lost in the middle}. In this paper, we propose \textsc{LongAgent}, a method based on multi-agent collaboration, which scales LLMs (e.g., LLaMA) to a context of 128K and demonstrates potential superiority in long-text processing compared to GPT-4. In \textsc{LongAgent}, a leader is responsible for understanding user intent and directing team members to acquire information from documents. Due to members' hallucinations, it is non-trivial for a leader to obtain accurate information from the responses of dozens to hundreds of members. To address this, we develop an \textit{inter-member communication} mechanism to resolve response conflicts caused by hallucinations through information sharing. Our experimental results indicate that \textsc{LongAgent} offers a promising alternative for long-text processing. The agent team instantiated with LLaMA-7B achieves significant improvements in tasks such as 128k-long text retrieval, multi-hop question answering, compared to GPT-4.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語理解と複雑な推論タスクの実行において、優れたパフォーマンスを示している。しかし、長いコンテキストウィンドウを持つLLMは、高価なトレーニングコストと高い推論遅延で悪名高い。 GPT-4やClaude2のような最も先進的なモデルでさえ、100kドルを超えるトークンの入力を処理するときにしばしば間違いを犯す。本稿では、128KのコンテキストにLLM(eg, LLaMA)をスケールし、GPT-4と比較して長文処理において潜在的優位性を示すマルチエージェント協調に基づく手法である \textsc{LongAgent} を提案する。 textsc{LongAgent} では、リーダーがユーザの意図を理解し、チームメンバにドキュメントから情報を取得するように指示する役割を担います。メンバーの幻覚のため、リーダーが数十人から数百人のメンバーの反応から正確な情報を得るのは簡単ではない。これを解決するために,情報共有による幻覚による応答競合を解決するための「textit{inter-member communication}」機構を開発した。実験結果から, <textsc{LongAgent} が長文処理の代替となる可能性が示唆された。 LLaMA-7Bでインスタンス化したエージェントチームは、128k長のテキスト検索やマルチホップ質問応答といったタスクを、GPT-4と比べて大幅に改善した。

関連論文リスト

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation [0.0]
本稿では,言語アノテーションを自動化するために,反射型多モデルアーキテクチャを活用する統合プラットフォームLinguistAgentを紹介する。このシステムは、プロのピアレビュープロセスをシミュレートするために、アノテーションとレビュアーからなるデュアルエージェントワークフローを実装している。メタファ識別のタスクを例にLinguistAgentの有効性を実証し,トークンレベルをリアルタイムに評価する。
論文参考訳（メタデータ） (2026-02-05T09:55:19Z)
LongVideoAgent: Multi-Agent Reasoning with Long Videos [69.28914905197426]
本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
論文参考訳（メタデータ） (2025-12-23T18:59:49Z)
TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents [4.753535328327316]
大規模言語モデル(LLM)への過度な依存は、重要な社会的問題として浮上している。そこで本研究では,LLMがユーザにとって妥当と思われるが,実際には誤りである出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
論文参考訳（メタデータ） (2025-05-30T07:16:53Z)
MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.52017994491893]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。 5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文参考訳（メタデータ） (2025-03-18T06:57:21Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文参考訳（メタデータ） (2024-10-12T03:13:44Z)
Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文参考訳（メタデータ） (2024-10-02T15:39:55Z)
GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。 LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文参考訳（メタデータ） (2024-06-20T17:57:51Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom [4.142301960178498]
SwordsmanImpは、会話の不適応を目的とした中国初のマルチターン対話ベースのデータセットである。 200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。 GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。
論文参考訳（メタデータ） (2024-04-30T12:43:53Z)
CuriousLLM: Elevating Multi-Document Question Answering with LLM-Enhanced Knowledge Graph Reasoning [0.9295048974480845]
我々は、好奇心駆動推論機構をLLMエージェントに統合する拡張であるCuriousLLMを提案する。この機構により、エージェントは関連するフォローアップ質問を生成し、情報検索プロセスをより効率的に導くことができる。実験の結果,CuriousLLMは多文書質問応答(MD-QA)におけるLLM性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-04-13T20:43:46Z)
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts [35.68159165639245]
本実験では,有効文脈長を最大20倍に向上させるエージェントシステムであるReadAgentを提案する。人間が長い文書を対話的に読む方法に触発され、簡単なプロンプトシステムとしてReadAgentを実装した。本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。
論文参考訳（メタデータ） (2024-02-15T05:40:21Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。 M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文参考訳（メタデータ） (2023-10-30T03:11:30Z)
Building Cooperative Embodied Agents Modularly with Large Language Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文参考訳（メタデータ） (2023-07-05T17:59:27Z)
Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができるこの研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文参考訳（メタデータ） (2023-04-12T17:33:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。