論文の概要: A Step Closer to Comprehensive Answers: Constrained Multi-Stage Question
Decomposition with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07491v1
- Date: Mon, 13 Nov 2023 17:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:21:33.650442
- Title: A Step Closer to Comprehensive Answers: Constrained Multi-Stage Question
Decomposition with Large Language Models
- Title(参考訳): 包括的回答への一歩:大規模言語モデルによる制約付き多段階質問分解
- Authors: Hejing Cao and Zhenwei An and Jiazhan Feng and Kun Xu and Liwei Chen
and Dongyan Zhao
- Abstract要約: 私たちは"Decompose-and-Query"フレームワーク(D&Q)を紹介します。
このフレームワークはモデルにReActに似た外部知識を考え、活用するよう誘導する。
ChitChatQAデータセットでは、67%のケースでD&QはChatGPTに負けません。
- 参考スコア(独自算出の注目度): 43.10340493000934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models exhibit remarkable performance in the Question
Answering task, they are susceptible to hallucinations. Challenges arise when
these models grapple with understanding multi-hop relations in complex
questions or lack the necessary knowledge for a comprehensive response. To
address this issue, we introduce the "Decompose-and-Query" framework (D&Q).
This framework guides the model to think and utilize external knowledge similar
to ReAct, while also restricting its thinking to reliable information,
effectively mitigating the risk of hallucinations. Experiments confirm the
effectiveness of D&Q: On our ChitChatQA dataset, D&Q does not lose to ChatGPT
in 67% of cases; on the HotPotQA question-only setting, D&Q achieved an F1
score of 59.6%. Our code is available at
https://github.com/alkaidpku/DQ-ToolQA.
- Abstract(参考訳): 大きな言語モデルは質問回答タスクにおいて顕著なパフォーマンスを示すが、幻覚に影響を受けやすい。
これらのモデルが複雑な質問におけるマルチホップ関係を理解したり、包括的な応答に必要な知識を欠いたりすると、課題が発生する。
この問題に対処するため、我々は"Decompose-and-Query"フレームワーク(D&Q)を紹介します。
このフレームワークは、ReActと同様の外部知識を考案し活用すると同時に、その思考を信頼できる情報に制限し、幻覚のリスクを効果的に軽減する。
我々のChitChatQAデータセットでは、D&Qは67%のケースでChatGPTに負けない。
私たちのコードはhttps://github.com/alkaidpku/dq-toolqaで利用可能です。
関連論文リスト
- Researchy Questions: A Dataset of Multi-Perspective, Decompositional
Questions for LLM Web Agents [22.023543164141504]
我々は,検索エンジンクエリのデータセットであるResearchy Questionsを紹介した。
クリックやセッションの長さといったシグナルによって,これらの質問に多くの労力が費やされていることを,私たちは示しています。
また、サブクエストへの分解のようなスロー思考の解答技術は、直接解答するよりも有益であることを示す。
論文 参考訳(メタデータ) (2024-02-27T21:27:16Z) - GenDec: A robust generative Question-decomposition method for Multi-hop
reasoning [32.12904215053187]
マルチホップQAには、複雑な質問に答えるステップバイステップの推論が含まれる。
マルチホップ質問応答における既存の大規模言語モデル(LLM)推論能力は現在も探索が続けられている。
LLMが正しい結論に達するために望ましい推論連鎖に従うかどうかは不明である。
論文 参考訳(メタデータ) (2024-02-17T02:21:44Z) - AGent: A Novel Pipeline for Automatically Creating Unanswerable
Questions [10.272000561545331]
我々は、質問を正しい回答に必要な情報を持たないコンテキストで再マッチングすることで、新しい解決不可能な質問を生成する新しいパイプラインであるAGentを提案する。
本稿では,SQuAD と HotpotQA の解答可能な質問から2組の解答不可能な質問を生成することにより,この AGent パイプラインの有用性を実証する。
論文 参考訳(メタデータ) (2023-09-10T18:13:11Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文 参考訳(メタデータ) (2022-10-14T02:46:06Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - QA4QG: Using Question Answering to Constrain Multi-Hop Question
Generation [54.136509061542775]
マルチホップ質問生成(MQG)は、入力パスの複数の情報に対する推論を必要とする複雑な質問を生成することを目的としている。
MQGのためのQA強化BARTベースのフレームワークであるQA4QGを提案する。
HotpotQAデータセットの結果は、QA4QGがすべての最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-02-14T08:16:47Z) - Learn to Resolve Conversational Dependency: A Consistency Training
Framework for Conversational Question Answering [14.382513103948897]
本稿では,会話の文脈を理解する上で,QAモデルの能力を高めるためにExCorD(会話依存の解決方法の明示的ガイダンス)を提案する。
実験では,QuACでは1.2F1,CANARDでは5.2F1,QAモデルでは1.2F1に改善した。
論文 参考訳(メタデータ) (2021-06-22T07:16:45Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。