論文の概要: Multi$^2$: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing
- arxiv url: http://arxiv.org/abs/2502.20592v1
- Date: Thu, 27 Feb 2025 23:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:40.219362
- Title: Multi$^2$: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing
- Title(参考訳): Multi$2$:マルチドキュメント処理のためのマルチエージェントテスト時間スケーラブルフレームワーク
- Authors: Juntai Cao, Xiang Zhang, Raymond Li, Chuyuan Li, Shafiq Joty, Giuseppe Carenini,
- Abstract要約: MDS(Multi-Document Summarization)は,複数の文書から有用な情報を抽出・合成することに焦点を当てた課題である。
本稿では,このタスクに推論時間スケーリングを利用する新しいフレームワークを提案する。
また,新しい評価指標として Consistency-Aware Preference (CAP) スコアと LLM Atom-Content-Unit (ACU) スコアがある。
- 参考スコア(独自算出の注目度): 35.686125031177234
- License:
- Abstract: Recent advances in test-time scaling have shown promising results in improving Large Language Models (LLMs) performance through strategic computation allocation during inference. While this approach has demonstrated strong performance improvements in logical and mathematical reasoning tasks, its application to natural language generation (NLG), especially summarization, has yet to be explored. Multi-Document Summarization (MDS) is a challenging task that focuses on extracting and synthesizing useful information from multiple lengthy documents. Unlike reasoning tasks, MDS requires a more nuanced approach to prompt design and ensemble, as there is no "best" prompt to satisfy diverse summarization requirements. To address this, we propose a novel framework that leverages inference-time scaling for this task. Precisely, we take prompt ensemble approach by leveraging various prompt to first generate candidate summaries and then ensemble them with an aggregator to produce a refined summary. We also introduce two new evaluation metrics: Consistency-Aware Preference (CAP) score and LLM Atom-Content-Unit (ACU) score, to enhance LLM's contextual understanding while mitigating its positional bias. Extensive experiments demonstrate the effectiveness of our approach in improving summary quality while identifying and analyzing the scaling boundaries in summarization tasks.
- Abstract(参考訳): テスト時間スケーリングの最近の進歩は、推論中の戦略的計算割り当てを通じて、Large Language Models (LLMs) の性能を改善するという有望な結果を示している。
このアプローチは論理的および数学的推論タスクにおいて強力な性能向上を示しているが、自然言語生成(NLG)、特に要約への応用はまだ検討されていない。
MDS(Multi-Document Summarization)は,複数の文書から有用な情報を抽出・合成することに焦点を当てた課題である。
推論タスクとは異なり、MDSは様々な要約要求を満たすための"ベスト"なプロンプトがないため、設計とアンサンブルの促進のためによりニュアンスなアプローチを必要とする。
そこで本研究では,この課題に対して,推論時間スケーリングを活用する新しいフレームワークを提案する。
より正確には、まず様々なプロンプトを活用して、まず候補サマリーを生成し、次にアグリゲータでアンサンブルして、洗練された要約を生成する。
また、LCMの文脈的理解を高めるために、CAPスコアとACUスコアという2つの新しい評価指標を導入し、その位置バイアスを緩和しながら、LCMの文脈的理解を高める。
要約タスクにおけるスケーリング境界を特定し解析しながら, 要約品質を向上させる手法の有効性を実証した。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Enhancing Question Answering Precision with Optimized Vector Retrieval and Instructions [1.2425910171551517]
質問応答 (QA) は情報検索 (IR) と言語モデルの重要な応用である。
本稿では、最適化されたベクトル検索と命令手法を統合することにより、QAタスク性能を改善するための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:14:04Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。
実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - A Multi-Task Semantic Decomposition Framework with Task-specific
Pre-training for Few-Shot NER [26.008350261239617]
マルチタスク・セマンティック・デコンストラクション・フレームワークを提案する。
本稿では,MLM(Demonstration-based Masked Language Modeling)とクラスコントラスト識別(Class Contrastive Discrimination)の2つの新しい事前学習タスクを紹介する。
下流のメインタスクでは,エンティティ分類のための2つの異なるセマンティック情報の統合を容易にするセマンティックデコンポーザリング手法を用いたマルチタスク共同最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-28T12:46:21Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。