論文の概要: Retrieval and Argumentation Enhanced Multi-Agent LLMs for Judgmental Forecasting
- arxiv url: http://arxiv.org/abs/2510.24303v1
- Date: Tue, 28 Oct 2025 11:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.089323
- Title: Retrieval and Argumentation Enhanced Multi-Agent LLMs for Judgmental Forecasting
- Title(参考訳): 判断予測のための検索・調停強化多エージェントLDM
- Authors: Deniz Gorur, Antoni Rago, Francesca Toni,
- Abstract要約: 本稿では,クレーム検証のための新しいマルチエージェントフレームワークを提案する。
異なる代理人は、クレームの正確性に異を唱え、クレームに対する具体的な証拠を提出することができる。
エージェントのエビデンスを組み合わせることで,予測精度が向上することが観察された。
- 参考スコア(独自算出の注目度): 15.84417337259005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Judgmental forecasting is the task of making predictions about future events based on human judgment. This task can be seen as a form of claim verification, where the claim corresponds to a future event and the task is to assess the plausibility of that event. In this paper, we propose a novel multi-agent framework for claim verification, whereby different agents may disagree on claim veracity and bring specific evidence for and against the claims, represented as quantitative bipolar argumentation frameworks (QBAFs). We then instantiate the framework for supporting claim verification, with a variety of agents realised with Large Language Models (LLMs): (1) ArgLLM agents, an existing approach for claim verification that generates and evaluates QBAFs; (2) RbAM agents, whereby LLM-empowered Relation-based Argument Mining (RbAM) from external sources is used to generate QBAFs; (3) RAG-ArgLLM agents, extending ArgLLM agents with a form of Retrieval-Augmented Generation (RAG) of arguments from external sources. Finally, we conduct experiments with two standard judgmental forecasting datasets, with instances of our framework with two or three agents, empowered by six different base LLMs. We observe that combining evidence from agents can improve forecasting accuracy, especially in the case of three agents, while providing an explainable combination of evidence for claim verification.
- Abstract(参考訳): 判断予測とは、人間の判断に基づいて将来の出来事を予測するタスクである。
このタスクはクレーム検証の一形態として見ることができ、クレームは将来のイベントに対応し、そのイベントの妥当性を評価する。
本稿では,クレーム検証のための新しいマルチエージェントフレームワークを提案する。これは,クレームの妥当性に異を唱え,クレームを定量的に議論するフレームワーク (QBAF) として表現する,クレームに対する具体的な証拠を提示する。
次に, 大規模言語モデル (LLM) で実現された様々なエージェントを用いて, クレーム検証のためのフレームワークをインスタンス化する。(1) クレーム検証のための既存のアプローチである ArgLLM エージェント,(2) 外部ソースからの LLM-empowered Relation-based Argument Mining (RbAM) エージェントを使用して QBAF を生成するための RAG-ArgLLM エージェント,(3) 外部ソースからの引数の形で ArgLLM エージェントを拡張した ArgLLM エージェント。
最後に,2つの標準判断予測データセットを用いて実験を行った。
エージェントのエビデンスを組み合わせることで,特に3つのエージェントの場合の予測精度が向上すると同時に,クレーム検証のためのエビデンスを説明可能な組み合わせを提供する。
関連論文リスト
- Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning [9.24980723036746]
GAM-Agentは、視覚言語推論を強化するためのゲーム理論のマルチエージェントフレームワークである。
基本エージェント間の非ゼロサムゲームとして推論過程を定式化し、視覚的知覚サブタスクを専門とするゲームと、論理的一貫性と事実的正確性を検証する重要なエージェントを定式化する。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
論文 参考訳(メタデータ) (2025-05-29T12:37:34Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [36.3918410061572]
MA-RAGは、複雑な情報探索タスクにおける固有の曖昧さと推論の問題に対処する。
エンドツーエンドの微調整や分離されたコンポーネント拡張に依存する従来のRAGメソッドとは異なり、MA-RAGは特別なAIエージェントの協調的なセットを編成する。
本結果は,検索強化システムにおける協調的,モジュール型推論の有効性を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models [16.701242561345786]
LLM(Large Language Models)のパフォーマンスは、入力の例タスクとクエリの類似性によって駆動される。
本研究は, LLMの知覚的推論能力は, 従来の類似性と近似的検索に起因していることを示す。
論文 参考訳(メタデータ) (2024-05-22T20:05:49Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。