論文の概要: Multi-hop Evidence Pursuit Meets the Web: Team Papelo at FEVER 2024
- arxiv url: http://arxiv.org/abs/2411.05762v1
- Date: Fri, 08 Nov 2024 18:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:39.923758
- Title: Multi-hop Evidence Pursuit Meets the Web: Team Papelo at FEVER 2024
- Title(参考訳): マルチホップのEvidence PursuitがWebに出会う: FEVER 2024のチームパペロ
- Authors: Christopher Malon,
- Abstract要約: 大規模言語モデル(LLM)の推論能力と,現代の検索エンジンの検索能力を組み合わせることで,この処理を自動化できることが示されている。
マルチホップエビデンス追跡戦略の下で,LSMと検索を統合した。
提案システムでは,開発セットで.510 AVeriTeC,テストセットで.477 AVeriTeCを達成した。
- 参考スコア(独自算出の注目度): 1.3923460621808879
- License:
- Abstract: Separating disinformation from fact on the web has long challenged both the search and the reasoning powers of humans. We show that the reasoning power of large language models (LLMs) and the retrieval power of modern search engines can be combined to automate this process and explainably verify claims. We integrate LLMs and search under a multi-hop evidence pursuit strategy. This strategy generates an initial question based on an input claim using a sequence to sequence model, searches and formulates an answer to the question, and iteratively generates follow-up questions to pursue the evidence that is missing using an LLM. We demonstrate our system on the FEVER 2024 (AVeriTeC) shared task. Compared to a strategy of generating all the questions at once, our method obtains .045 higher label accuracy and .155 higher AVeriTeC score (evaluating the adequacy of the evidence). Through ablations, we show the importance of various design choices, such as the question generation method, medium-sized context, reasoning with one document at a time, adding metadata, paraphrasing, reducing the problem to two classes, and reconsidering the final verdict. Our submitted system achieves .510 AVeriTeC score on the dev set and .477 AVeriTeC score on the test set.
- Abstract(参考訳): 事実をウェブから切り離すことは、長い間、人間の検索力と推論力の両方に挑戦してきた。
大規模言語モデル(LLM)の推論能力と,現代の検索エンジンの検索能力を組み合わせることで,この処理を自動化し,クレームを説明的確に検証できることを示す。
マルチホップエビデンス追跡戦略の下で,LSMと検索を統合した。
この戦略は、シーケンスモデルを用いた入力クレームに基づいて初期質問を生成し、その質問に対する回答を探索して定式化し、反復的にフォローアップ質問を生成し、LCMを用いて欠落している証拠を追求する。
FEVER 2024(AVeriTeC)共有タスクにおいて,本システムを実証した。
本手法は,全ての質問を一度に生成する戦略と比較して,ラベル精度が.045,AVeriTeCスコアが.155と高い(証拠の妥当性を評価する)。
本稿では,質問生成手法,中規模コンテキスト,一度に1つの文書による推論,メタデータの追加,言い換え,問題を2つのクラスに還元,最終的な判断の再検討など,さまざまな設計選択の重要性を示す。
提案システムでは,開発セットで.510 AVeriTeC,テストセットで.477 AVeriTeCを得る。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context [31.091013417498825]
文脈反復(CoRe)という,シンプルで効果的な手法を提案する。
CoReは、モデルに対して最適な順序でサポートドキュメントが提示されることを保証するために、コンテキストを繰り返し提示することで、モデルに促す。
マルチホップQAタスクではF1スコアが最大30%向上し,合成タスクでは最大70%向上した。
論文 参考訳(メタデータ) (2024-10-09T17:41:53Z) - Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs [9.785096589765908]
ファクトチェックシステムの性能評価には,Averitecデータセットを使用します。
精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。
本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
論文 参考訳(メタデータ) (2024-08-22T01:42:34Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect [0.0]
本稿ではVenn Diagram (VD) Promptingを紹介した。これはLLM(Large Language Models)が文書間で情報を組み合わせて合成できる革新的なプロンプト技術である。
提案手法は,LLMの固有位置バイアスを除去し,入力情報のシーケンスに対する感度を除去し,回答の一貫性を高めることを目的としている。
4つの公開ベンチマークの問合せデータセットで実施された実験では、VDは連続的に一致したり、巧妙に製作された命令プロンプトのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-06-08T06:27:26Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Adaptive Information Seeking for Open-Domain Question Answering [61.39330982757494]
本稿では,オープンドメイン質問応答,すなわちAISOに対する適応型情報探索手法を提案する。
学習方針によると、AISOは適切な検索行動を選択し、各ステップで行方不明の証拠を探すことができる。
AISOは、検索と回答の評価の両方の観点から、事前定義された戦略で全てのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2021-09-14T15:08:13Z) - A Clarifying Question Selection System from NTES_ALONG in Convai3
Challenge [8.656503175492375]
本稿では,検索指向会話型AI (SCAI) EMNLPワークショップにおけるClariQチャレンジへのNetEase Game AI Labチームの参加について述べる。
この課題は、解明された質問を理解し、生成できる完全な会話情報検索システムを求めるものである。
本稿では,回答理解,質問のリコール,質問ランキングの明確化からなる質問選択システムを提案する。
論文 参考訳(メタデータ) (2020-10-27T11:22:53Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。