論文の概要: RETQA: A Large-Scale Open-Domain Tabular Question Answering Dataset for Real Estate Sector
- arxiv url: http://arxiv.org/abs/2412.10104v1
- Date: Fri, 13 Dec 2024 12:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:12.740412
- Title: RETQA: A Large-Scale Open-Domain Tabular Question Answering Dataset for Real Estate Sector
- Title(参考訳): RETQA: 不動産セクター向け大規模オープンドメイン質問回答データセット
- Authors: Zhensheng Wang, Wenmian Yang, Kun Zhou, Yiquan Zhang, Weijia Jia,
- Abstract要約: RETQAは、Real Estateのための最初の大規模オープンドメイン中国語タブラル質問回答データセットである。
不動産情報、不動産会社財務情報、土地競売情報という3つの主要領域内の16のサブフィールドにまたがる4,932のテーブルと20,762の質問応答ペアで構成されている。
本稿では,大規模言語モデルと音声言語理解タスクを統合したSLUTQAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.76822378886784
- License:
- Abstract: The real estate market relies heavily on structured data, such as property details, market trends, and price fluctuations. However, the lack of specialized Tabular Question Answering datasets in this domain limits the development of automated question-answering systems. To fill this gap, we introduce RETQA, the first large-scale open-domain Chinese Tabular Question Answering dataset for Real Estate. RETQA comprises 4,932 tables and 20,762 question-answer pairs across 16 sub-fields within three major domains: property information, real estate company finance information and land auction information. Compared with existing tabular question answering datasets, RETQA poses greater challenges due to three key factors: long-table structures, open-domain retrieval, and multi-domain queries. To tackle these challenges, we propose the SLUTQA framework, which integrates large language models with spoken language understanding tasks to enhance retrieval and answering accuracy. Extensive experiments demonstrate that SLUTQA significantly improves the performance of large language models on RETQA by in-context learning. RETQA and SLUTQA provide essential resources for advancing tabular question answering research in the real estate domain, addressing critical challenges in open-domain and long-table question-answering. The dataset and code are publicly available at \url{https://github.com/jensen-w/RETQA}.
- Abstract(参考訳): 不動産市場は、不動産の詳細、市場の動向、価格変動など、構造化されたデータに大きく依存している。
しかし、この領域には専門的な質問回答データセットがないため、自動質問回答システムの開発は制限される。
このギャップを埋めるために、我々はReal Estateのための最初の大規模オープンドメイン中国語質問回答データセットであるRETQAを紹介した。
RETQAは、不動産情報、不動産会社財務情報、土地競売情報という3つの主要領域内の16のサブフィールドにまたがる4,932のテーブルと20,762の質問応答ペアで構成されている。
既存の表形式の質問応答データセットと比較して、RETQAは、長期構造、オープンドメイン検索、マルチドメインクエリという3つの主要な要因のために、より大きな課題を提起している。
これらの課題に対処するために,大規模言語モデルと音声言語理解タスクを統合し,検索と回答の精度を向上させるSLUTQAフレームワークを提案する。
SLUTQAはテキスト内学習により,RETQA上での大規模言語モデルの性能を大幅に向上することを示した。
RETQA と SLUTQA は,実地領域における質問応答研究の進展に不可欠な資源を提供し,オープンドメインおよび長期質問応答における重要な課題に対処する。
データセットとコードは \url{https://github.com/jensen-w/RETQA} で公開されている。
関連論文リスト
- TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。