論文の概要: ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning
- arxiv url: http://arxiv.org/abs/2502.04689v1
- Date: Fri, 07 Feb 2025 06:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:53.129788
- Title: ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning
- Title(参考訳): ARR: 分析・検索・推論による大規模言語モデルによる質問応答
- Authors: Yuwei Yin, Giuseppe Carenini,
- Abstract要約: 大規模言語モデル(LLM)は、複数選択質問応答(QA)タスクとして構成された挑戦的なベンチマークにおいて、顕著なパフォーマンスを達成する。
本稿では,QA解決における3つの重要なステップを明示的に組み込んだ直感的で効果的なゼロショットプロンプト手法であるARRを紹介した。
- 参考スコア(独自算出の注目度): 22.825527641316192
- License:
- Abstract: Large language models (LLMs) achieve remarkable performance on challenging benchmarks that are often structured as multiple-choice question-answering (QA) tasks. Zero-shot Chain-of-Thought (CoT) prompting enhances reasoning in LLMs but provides only vague and generic guidance ("think step by step"). This paper introduces ARR, an intuitive and effective zero-shot prompting method that explicitly incorporates three key steps in QA solving: analyzing the intent of the question, retrieving relevant information, and reasoning step by step. Comprehensive experiments across diverse and challenging QA tasks demonstrate that ARR consistently improves the Baseline (without ARR prompting) and outperforms CoT. Ablation and case studies further validate the positive contributions of each component: analyzing, retrieving, and reasoning. Notably, intent analysis plays a vital role in ARR. Additionally, extensive evaluations across various model sizes, LLM series, and generation settings solidify the effectiveness, robustness, and generalizability of ARR.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば複数の質問応答(QA)タスクとして構成される挑戦的なベンチマークにおいて、顕著なパフォーマンスを達成する。
Zero-shot Chain-of-Thought (CoT) は LLM の推論を促進させるが、曖昧で汎用的なガイダンスのみを提供する(ステップバイステップ)。
本稿では,QA解決における3つの重要なステップを明示的に組み込んだ直感的で効果的なゼロショットプロンプト手法であるARRを紹介した。
多様なQAタスクに対する総合的な実験は、ARRがベースラインを継続的に改善し(ARRのプロンプトなしで)、CoTを上回っていることを示している。
アブレーションとケーススタディは、各コンポーネントの肯定的な貢献(分析、検索、推論)をさらに検証する。
特に、意図分析はARRにおいて重要な役割を果たす。
さらに, 各種モデルサイズ, LLM シリーズ, 生成設定の広範な評価により, ARR の有効性, 堅牢性, 一般化性が確立された。
関連論文リスト
- Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure [0.0]
本稿では,多段階推論の直接評価という,推論能力の特定の側面に焦点を当てたベンチマークを提案する。
我々のデータセットは、明示的な指示とそれに対応する質問のペアで構成されており、質問の解決に必要な手順は、その指示の中で完全に詳細に記述されている。
各ステップで様々なステップの解決と応答評価を必要とする問題を構築することにより、最先端のLCMの指示に従う能力の徹底的な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-04T03:21:24Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。