論文の概要: Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2504.09781v1
- Date: Mon, 14 Apr 2025 00:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:16.979481
- Title: Reasoning Court: Combining Reasoning, Action, and Judgment for Multi-Hop Reasoning
- Title(参考訳): Reasoning Court:マルチホップ推論のためのReasoning, Action, Judgmentの組み合わせ
- Authors: Jingtian Wu, Claire Cardie,
- Abstract要約: Reasoning Court(RC)は、ReActのような反復的推論と検索の手法を拡張した新しいフレームワークである。
RCはタスク固有の微調整なしで、最先端のショットプロンプト手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 17.829990749622496
- License:
- Abstract: While large language models (LLMs) have demonstrated strong capabilities in tasks like question answering and fact verification, they continue to suffer from hallucinations and reasoning errors, especially in multi-hop tasks that require integration of multiple information sources. Current methods address these issues through retrieval-based techniques (grounding reasoning in external evidence), reasoning-based approaches (enhancing coherence via improved prompting), or hybrid strategies combining both elements. One prominent hybrid method, ReAct, has outperformed purely retrieval-based or reasoning-based approaches; however, it lacks internal verification of intermediate reasoning steps, allowing potential errors to propagate through complex reasoning tasks. In this paper, we introduce Reasoning Court (RC), a novel framework that extends iterative reasoning-and-retrieval methods, such as ReAct, with a dedicated LLM judge. Unlike ReAct, RC employs this judge to independently evaluate multiple candidate answers and their associated reasoning generated by separate LLM agents. The judge is asked to select the answer that it considers the most factually grounded and logically coherent based on the presented reasoning and evidence, or synthesizes a new answer using available evidence and its pre-trained knowledge if all candidates are inadequate, flawed, or invalid. Evaluations on multi-hop benchmarks (HotpotQA, MuSiQue) and fact-verification (FEVER) demonstrate that RC consistently outperforms state-of-the-art few-shot prompting methods without task-specific fine-tuning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、質問応答や事実検証のようなタスクにおいて強力な能力を示してきたが、幻覚や推論エラー、特に複数の情報ソースの統合を必要とするマルチホップタスクに悩まされ続けている。
現在の手法では、検索に基づく手法(外部証拠のグラウンド推論)、推論に基づくアプローチ(プロンプトの改善によるコヒーレンスの向上)、および両方の要素を組み合わせたハイブリッド戦略によってこれらの問題に対処している。
1つの顕著なハイブリッド手法であるReActは、純粋に検索ベースまたは推論ベースアプローチよりも優れているが、中間推論ステップの内部検証が欠如しており、複雑な推論タスクを通じて潜在的なエラーが伝播する可能性がある。
本稿では、ReActのような反復的推論・検索手法を拡張する新しいフレームワークであるReasoning Court(RC)について、LLM審査員に紹介する。
ReActとは異なり、RCは複数の候補回答とその関連する推論を別個のLCMエージェントによって独立に評価するためにこの判断を用いる。
裁判官は、提示された推論と証拠に基づいて、最も事実に根ざした、論理的に一貫性のある答えを選択するように求められ、また、すべての候補者が不十分、欠陥、または無効である場合、利用可能な証拠と事前訓練された知識を使用して、新しい答えを合成する。
マルチホップベンチマーク (HotpotQA, MuSiQue) とファクト検証 (FEVER) による評価は、RCがタスク固有の微調整を伴わずに、最先端のショットプロンプト手法より一貫して優れていることを示している。
関連論文リスト
- Elevating Legal LLM Responses: Harnessing Trainable Logical Structures and Semantic Knowledge with Legal Reasoning [19.477062052536887]
意味と論理的コヒーレンスを橋渡しする教師ありフレームワークである論理・意味統合モデル(LSIM)を提案する。
LSIMは3つの要素から構成される: 強化学習は各質問に対して構造化されたファクトルールチェーンを予測し、訓練可能なDeep Structured Semantic Model(DSSM)は最も関連性の高い質問を検索し、回答内学習は最終回答を生成する。
LSIMが従来の手法に比べて精度と信頼性を著しく向上させるような,自動測定と人的評価デーモンレートによる実世界の法的データセットのQA検証実験を行った。
論文 参考訳(メタデータ) (2025-02-11T19:33:07Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。
本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T20:36:10Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - EviDR: Evidence-Emphasized Discrete Reasoning for Reasoning Machine
Reading Comprehension [39.970232108247394]
R-MRC(Reasoning Machine reading comprehension)は、テキストに基づく離散推論を必要とする複雑な質問に答えることを目的としている。
最先端のパフォーマンスを実現する従来のエンドツーエンドの手法は、証拠のモデリングに十分な注意を払うことで、この問題を解決することはめったにない。
文と節レベルの証拠を遠方からの監視に基づいて最初に検出するエビデンス強調離散推論手法(EviDR)を提案する。
論文 参考訳(メタデータ) (2021-08-18T06:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。