論文の概要: MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification
- arxiv url: http://arxiv.org/abs/2508.02584v1
- Date: Mon, 04 Aug 2025 16:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.433316
- Title: MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification
- Title(参考訳): MArgE: 妥当なクレーム検証のための複数大言語モデルからの探索的証拠のメッシュ化
- Authors: Ming Pok Ng, Junqi Jiang, Gabriel Freedman, Antonio Rago, Francesca Toni,
- Abstract要約: 本稿では,各大規模言語モデルの証拠に形式的構造を提供する新しいフレームワークであるMArgEを紹介する。
実験により,MArgEは単一LLMよりも有意に優れることが示された。
- 参考スコア(独自算出の注目度): 12.449402503089164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging outputs from multiple large language models (LLMs) is emerging as a method for harnessing their power across a wide range of tasks while mitigating their capacity for making errors, e.g., hallucinations. However, current approaches to combining insights from multiple LLMs often involve unstructured interactions (e.g., free debate), resulting in model generations that are not faithfully justifiable. In this work, we introduce MArgE, a novel framework to provide formal structure to the evidence from each LLM, in the form of a tree of extracted arguments, for the task of claim verification. We use a variant of Argumentative LLMs (ArgLLMs), i.e. LLMs driven by frameworks and semantics from the field of computational argumentation, to construct structured argument trees for given claims. This process creates an inspectable pathway from the initial arguments to the final claim verification decisions, providing a faithful justification thereof. We show experimentally that MArgE can significantly outperform single LLMs, including three open-source models (4B to 8B parameters), GPT-4o-mini and existing ArgLLMs, as well as prior methods for unstructured multi-LLM debates. We thus demonstrate the advantages of incorporating formal, argumentative reasoning mechanisms when combining multiple LLM outputs.
- Abstract(参考訳): 複数の大規模言語モデル(LLM)からの出力を活用することで、さまざまなタスクにまたがるパワーを活用すると同時に、例えば幻覚などのエラーを発生させる能力を軽減できる。
しかしながら、複数のLSMからの洞察を組み合わせるための現在のアプローチは、しばしば非構造的相互作用(例えば、自由な議論)を伴い、忠実に正当化できないモデル生成をもたらす。
本稿では,各 LLM からの証拠に形式的構造を提供する新たなフレームワークである MArgE について紹介する。
我々は、与えられたクレームに対して構造化された引数ツリーを構築するために、Argumentative LLM(ArgLLMs)の変種、すなわち、計算論の分野からフレームワークやセマンティクスによって駆動されるLLMを使用する。
このプロセスは、初期引数から最終クレーム検証決定への検査可能な経路を生成し、その忠実な正当化を提供する。
3つのオープンソースモデル(4Bから8Bパラメータ)、GPT-4o-miniおよび既存のArgLLM、および非構造化マルチLLM議論の先行手法を含む、MArgEがシングルLLMを著しく上回ることを示す。
したがって、複数のLLM出力を組み合わせる際に、形式的、議論的推論機構を組み込むことの利点を実証する。
関連論文リスト
- CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - Reasoning-CV: Fine-tuning Powerful Reasoning LLMs for Knowledge-Assisted Claim Verification [17.35114345065597]
CoT(Chain-of-Thought)-Verifyパラダイムは、サブステートへの分解を必要とせず、検証段階を分離することなく、元の複雑クレームに対するCoT検証パスを生成する。
Reasoning-CVは既存のDecompose-Then-Verify法よりも優れた知識支援クレーム検証性能を示す。
論文 参考訳(メタデータ) (2025-05-18T10:28:54Z) - LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。
知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。
我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文 参考訳(メタデータ) (2025-04-04T03:03:47Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Argumentative Large Language Models for Explainable and Contestable Claim Verification [13.045050015831903]
本稿では,議論的推論を用いた大規模言語モデルの拡張手法であるArgLLMsを紹介する。
ArgLLMsは議論フレームワークを構築し、意思決定を支援するための公式な推論の基礎となる。
我々はArgLLMsの性能を最先端技術と比較して実験的に評価した。
論文 参考訳(メタデータ) (2024-05-03T13:12:28Z) - Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。
私たちはこのフレームワークを使用して、現実世界のクレームを取り入れた最初のクレーム検証ベンチマークであるRECVを作成します。
我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。