論文の概要: KoRC: Knowledge oriented Reading Comprehension Benchmark for Deep Text
Understanding
- arxiv url: http://arxiv.org/abs/2307.03115v1
- Date: Thu, 6 Jul 2023 16:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:28:45.976543
- Title: KoRC: Knowledge oriented Reading Comprehension Benchmark for Deep Text
Understanding
- Title(参考訳): KoRC: 深層テキスト理解のための知識指向読解ベンチマーク
- Authors: Zijun Yao, Yantao Liu, Xin Lv, Shulin Cao, Jifan Yu, Lei Hou, Juanzi
Li
- Abstract要約: この論文では、KoRcという新しい挑戦的なベンチマークを構築します。
我々は、膨大な知識ベースを用いて、アノテータや大言語モデルをガイドし、理解可能な質問を構築する。
最終回答には、スパンや選択ではなく、ナレッジベースでラベルを使用します。
- 参考スコア(独自算出の注目度): 21.909030314029962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep text understanding, which requires the connections between a given
document and prior knowledge beyond its text, has been highlighted by many
benchmarks in recent years. However, these benchmarks have encountered two
major limitations. On the one hand, most of them require human annotation of
knowledge, which leads to limited knowledge coverage. On the other hand, they
usually use choices or spans in the texts as the answers, which results in
narrow answer space. To overcome these limitations, we build a new challenging
benchmark named KoRc in this paper. Compared with previous benchmarks, KoRC has
two advantages, i.e., broad knowledge coverage and flexible answer format.
Specifically, we utilize massive knowledge bases to guide annotators or large
language models (LLMs) to construct knowledgable questions. Moreover, we use
labels in knowledge bases rather than spans or choices as the final answers. We
test state-of-the-art models on KoRC and the experimental results show that the
strongest baseline only achieves 68.3% and 30.0% F1 measure in the
in-distribution and out-of-distribution test set, respectively. These results
indicate that deep text understanding is still an unsolved challenge. The
benchmark dataset, leaderboard, and baseline methods are released in
https://github.com/THU-KEG/KoRC.
- Abstract(参考訳): 与えられた文書とテキスト以外の知識との間の接続を必要とする深いテキスト理解は、近年多くのベンチマークによって強調されている。
しかし、これらのベンチマークは2つの大きな制限に遭遇した。
一方、そのほとんどが人間の知識アノテーションを必要としており、知識のカバー範囲が限られている。
一方、彼らは通常、テキスト中の選択やスパンを答えとして使用し、その結果、狭い回答空間となる。
これらの制限を克服するために、我々はKoRcという新しい挑戦的なベンチマークを構築した。
以前のベンチマークと比較すると、KoRCには2つの利点がある。
具体的には,大量の知識ベースを用いてアノテーションや大規模言語モデル(llm)を指導し,理解可能な質問を構築する。
さらに、最終回答として範囲や選択ではなく、知識ベースでラベルを使用します。
実験結果から, 最強のベースラインは, 分布内および分布外において, 68.3%, 30.0%のF1測定値しか得られないことが判明した。
これらの結果は、深いテキスト理解はまだ未解決の課題であることを示している。
ベンチマークデータセット、リーダーボード、ベースラインメソッドはhttps://github.com/THU-KEG/KoRC.orgで公開されている。
関連論文リスト
- What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - simpleKT: A Simple But Tough-to-Beat Baseline for Knowledge Tracing [22.055683237994696]
我々は、textscsimpleKT という名前の KT タスクを扱うための、強力だが単純なベースライン手法を提供する。
心理学におけるラッシュモデルに触発され、質問固有のバリエーションを明示的にモデル化し、質問間の個人差を捉えた。
本研究は,学生の学習行動に埋め込まれた時間認識情報を抽出するために,通常のドット・プロダクト・アテンション機能を利用する。
論文 参考訳(メタデータ) (2023-02-14T08:09:09Z) - BigText-QA: Question Answering over a Large-Scale Hybrid Knowledge Graph [23.739432128095107]
BigText-QAは構造化知識グラフに基づいて質問に答えることができる。
その結果,BigText-QAはニューラルネットワークベースのQAシステムであるDrQAよりも優れており,グラフベースの教師なしQAシステムであるQUESTと競合する結果が得られた。
論文 参考訳(メタデータ) (2022-12-12T09:49:02Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep
Learning [66.59455427102152]
不確実性ベースライン(Uncertainty Baselines): 各種タスクにおける標準および最先端のディープラーニング手法の高品質な実装。
各ベースラインは、簡単に再利用可能で拡張可能なコンポーネントを備えた、自己完結型の実験パイプラインである。
モデルチェックポイント、Pythonノートブックとしての実験出力、結果を比較するためのリーダーボードを提供する。
論文 参考訳(メタデータ) (2021-06-07T23:57:32Z) - Natural Language Inference in Context -- Investigating Contextual
Reasoning over Long Texts [19.894104911338353]
ConTRoLは、Longテキスト上のConTextual Reasoningのための新しいデータセットである。
8,325人の専門家が設計した"context-hypothesis"ペアとゴールドラベルで構成されている。
これは、警察の徴兵のための競争的選択と採用試験(言語推論テスト)から派生し、専門家レベルの品質を持つ。
論文 参考訳(メタデータ) (2020-11-10T02:31:31Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。