論文の概要: MDCR: A Dataset for Multi-Document Conditional Reasoning
- arxiv url: http://arxiv.org/abs/2406.11784v1
- Date: Mon, 17 Jun 2024 17:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:23:59.828183
- Title: MDCR: A Dataset for Multi-Document Conditional Reasoning
- Title(参考訳): MDCR:マルチドキュメント条件推論のためのデータセット
- Authors: Peter Baile Chen, Yi Zhang, Chunwei Liu, Sejal Gupta, Yoon Kim, Michael Cafarella,
- Abstract要約: 条件付きQAは、未解決条件を考慮し、文書を読み、適性質問に回答するモデルの能力を評価するために提案された。
我々は,実世界の課題を反映した新しいデータセットMDCRを提案し,最適化を必要とする複雑な条件推論のための新しいテストベッドとして機能する。
- 参考スコア(独自算出の注目度): 20.42067697305166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The same real-life questions posed to different individuals may lead to different answers based on their unique situations. For instance, whether a student is eligible for a scholarship depends on eligibility conditions, such as major or degree required. ConditionalQA was proposed to evaluate models' capability of reading a document and answering eligibility questions, considering unmentioned conditions. However, it is limited to questions on single documents, neglecting harder cases that may require cross-document reasoning and optimization, for example, "What is the maximum number of scholarships attainable?" Such questions over multiple documents are not only more challenging due to more context having to understand, but also because the model has to (1) explore all possible combinations of unmentioned conditions and (2) understand the relationship between conditions across documents, to reason about the optimal outcome. To evaluate models' capability of answering such questions, we propose a new dataset MDCR, which can reflect real-world challenges and serve as a new test bed for complex conditional reasoning that requires optimization. We evaluate this dataset using the most recent LLMs and demonstrate their limitations in solving this task. We believe this dataset will facilitate future research in answering optimization questions with unknown conditions.
- Abstract(参考訳): 異なる個人に対して提起されるのと同じ現実的な質問は、独自の状況に基づいて異なる答えをもたらす可能性がある。
例えば、学生が奨学金を受ける資格があるかどうかは、専攻や学位などの資格条件に依存する。
条件付きQAは、未解決条件を考慮し、文書を読み、適性質問に回答するモデルの能力を評価するために提案された。
しかし、それは単一の文書に関する質問に限られており、例えば「学業の最大数が達成可能か」など、クロスドキュメントの推論と最適化を必要とする難しいケースを無視している。
複数の文書にまたがるこのような質問は、文脈の理解がより難しいだけでなく、(1)未解決条件のあらゆる組み合わせを探索し、(2)文書間の条件関係を解明し、最適な結果について考える必要がある。
このような質問に答えるモデルの能力を評価するために,実世界の課題を反映し,最適化を必要とする複雑な条件推論のための新しいテストベッドとして機能する新しいデータセットMDCRを提案する。
直近のLCMを用いてこのデータセットを評価し,その課題を解く際の限界を実証する。
このデータセットは、未知の条件で最適化問題に答える上で、今後の研究を促進するだろうと考えています。
関連論文リスト
- Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - A Counterfactual Explanation Framework for Retrieval Models [4.562474301450839]
最適化フレームワークを用いて、特定のクエリに対して検索モデルに好まれない単語がどのような役割を果たすかという問題を解く。
本実験は,統計モデル(BM25など)とディープラーニングモデルの両方に対して,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-09-01T22:33:29Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Reasoning over Logically Interacted Conditions for Question Answering [113.9231035680578]
我々は、論理的に相互作用する条件のリストによって答えが制約される、より困難なタスクについて研究する。
本稿では,この難解な推論タスクのための新しいモデルTReasonerを提案する。
TReasonerは、2つのベンチマーク条件付きQAデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-25T16:41:39Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。