論文の概要: Retrieval and Argumentation Enhanced Multi-Agent LLMs for Judgmental Forecasting
- arxiv url: http://arxiv.org/abs/2510.24303v2
- Date: Tue, 04 Nov 2025 15:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.511153
- Title: Retrieval and Argumentation Enhanced Multi-Agent LLMs for Judgmental Forecasting
- Title(参考訳): 判断予測のための検索・調停強化多エージェントLDM
- Authors: Deniz Gorur, Antonio Rago, Francesca Toni,
- Abstract要約: 本稿では,クレーム検証のための新しいマルチエージェントフレームワークを提案する。
異なる代理人は、クレームの正確性に異を唱え、クレームに対する具体的な証拠を提出することができる。
エージェントのエビデンスを組み合わせることで,予測精度が向上することが観察された。
- 参考スコア(独自算出の注目度): 22.109381003702595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Judgmental forecasting is the task of making predictions about future events based on human judgment. This task can be seen as a form of claim verification, where the claim corresponds to a future event and the task is to assess the plausibility of that event. In this paper, we propose a novel multi-agent framework for claim verification, whereby different agents may disagree on claim veracity and bring specific evidence for and against the claims, represented as quantitative bipolar argumentation frameworks (QBAFs). We then instantiate the framework for supporting claim verification, with a variety of agents realised with Large Language Models (LLMs): (1) ArgLLM agents, an existing approach for claim verification that generates and evaluates QBAFs; (2) RbAM agents, whereby LLM-empowered Relation-based Argument Mining (RbAM) from external sources is used to generate QBAFs; (3) RAG-ArgLLM agents, extending ArgLLM agents with a form of Retrieval-Augmented Generation (RAG) of arguments from external sources. Finally, we conduct experiments with two standard judgmental forecasting datasets, with instances of our framework with two or three agents, empowered by six different base LLMs. We observe that combining evidence from agents can improve forecasting accuracy, especially in the case of three agents, while providing an explainable combination of evidence for claim verification.
- Abstract(参考訳): 判断予測とは、人間の判断に基づいて将来の出来事を予測するタスクである。
このタスクはクレーム検証の一形態として見ることができ、クレームは将来のイベントに対応し、そのイベントの妥当性を評価する。
本稿では,クレーム検証のための新しいマルチエージェントフレームワークを提案する。これは,クレームの妥当性に異を唱え,クレームを定量的に議論するフレームワーク (QBAF) として表現する,クレームに対する具体的な証拠を提示する。
次に, 大規模言語モデル (LLM) で実現された様々なエージェントを用いて, クレーム検証のためのフレームワークをインスタンス化する。(1) クレーム検証のための既存のアプローチである ArgLLM エージェント,(2) 外部ソースからの LLM-empowered Relation-based Argument Mining (RbAM) エージェントを使用して QBAF を生成するための RAG-ArgLLM エージェント,(3) 外部ソースからの引数の形で ArgLLM エージェントを拡張した ArgLLM エージェント。
最後に,2つの標準判断予測データセットを用いて実験を行った。
エージェントのエビデンスを組み合わせることで,特に3つのエージェントの場合の予測精度が向上すると同時に,クレーム検証のためのエビデンスを説明可能な組み合わせを提供する。
関連論文リスト
- MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains [79.14584837105808]
MC-Searchは5つの代表的推論構造にまたがる長いステップワイドなアノテート推論チェーンを持つエージェントMM-RAGの最初のベンチマークである。
回答精度以外にも、MC-Searchは、品質、段階的検索、計画精度を推論するための新しいプロセスレベルメトリクスを導入している。
エージェントMM-RAGパイプラインを統一的に開発することにより、6つのMLLMをベンチマークし、過剰検索や過度検索、モダリティミスアライメント計画などの体系的な問題を明らかにする。
論文 参考訳(メタデータ) (2026-03-01T02:25:57Z) - Adaptive Collaboration of Arena-Based Argumentative LLMs for Explainable and Contestable Legal Reasoning [1.4988096015658898]
ACALは、アリーナを基盤とした量的双極性論証フレームワーク(A-QBAF)と適応的マルチエージェント協調を統合する神経シンボルフレームワークである。
ACALは専門家のエージェントチームを動的に配置して議論を構築し、競合するクレームを判断するために衝突解決メカニズムを採用し、境界線事件に対して不確実性を認識したエスカレーションを利用する。
我々のフレームワークはHuman-in-the-Loop (HITL) の競合性ワークフローをサポートしており、ユーザーは基礎となる推論グラフを直接監査して修正して最終判断に影響を与えることができる。
論文 参考訳(メタデータ) (2026-02-21T17:47:13Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning [9.24980723036746]
GAM-Agentは、視覚言語推論を強化するためのゲーム理論のマルチエージェントフレームワークである。
基本エージェント間の非ゼロサムゲームとして推論過程を定式化し、視覚的知覚サブタスクを専門とするゲームと、論理的一貫性と事実的正確性を検証する重要なエージェントを定式化する。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
論文 参考訳(メタデータ) (2025-05-29T12:37:34Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models [16.701242561345786]
LLM(Large Language Models)のパフォーマンスは、入力の例タスクとクエリの類似性によって駆動される。
本研究は, LLMの知覚的推論能力は, 従来の類似性と近似的検索に起因していることを示す。
論文 参考訳(メタデータ) (2024-05-22T20:05:49Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。