論文の概要: What Makes a Good Dataset for Symbol Description Reading?
- arxiv url: http://arxiv.org/abs/2304.08352v1
- Date: Mon, 17 Apr 2023 15:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:41:26.695506
- Title: What Makes a Good Dataset for Symbol Description Reading?
- Title(参考訳): シンボル記述を読むのによいデータセットは何でしょう?
- Authors: Karol Lynch and Joern Ploennigs and Bradley Eck
- Abstract要約: 本稿では,758ドルのアノテート識別子を付加したMFQAD(Math Formula Question Answering dataset)を提案する。
また,SOTA名詞句ランキング手法の実験結果と,本手法の新たなバリエーションについて報告する。
MIDRタスクに効果的なデータセットを作成する機能について、その位置を提供する。
- 参考スコア(独自算出の注目度): 0.6169364905804676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The usage of mathematical formulas as concise representations of a document's
key ideas is common practice. Correctly interpreting these formulas, by
identifying mathematical symbols and extracting their descriptions, is an
important task in document understanding. This paper makes the following
contributions to the mathematical identifier description reading (MIDR) task:
(i) introduces the Math Formula Question Answering Dataset (MFQuAD) with
$7508$ annotated identifier occurrences;
(ii) describes novel variations of the noun phrase ranking approach for the
MIDR task;
(iii) reports experimental results for the SOTA noun phrase ranking approach
and our novel variations of the approach, providing problem insights and a
performance baseline;
(iv) provides a position on the features that make an effective dataset for
the MIDR task.
- Abstract(参考訳): 文書の重要なアイデアの簡潔な表現としての数学的公式の使用は一般的な実践である。
これらの公式を正しく解釈することは、数学的記号を識別し、それらの記述を抽出することによって、文書理解において重要なタスクである。
本稿では,数学的識別子記述読解(MIDR)タスクに次のような貢献をする。
(i)758ドルの注釈付き識別子発生を伴うMFQuAD(Math Formula Question Answering Dataset)を導入する。
(ii)MIDRタスクにおける名詞句ランキング手法の新しいバリエーションについて述べる。
(iii) sota名詞句ランキングアプローチの実験結果と,そのアプローチの新たなバリエーションについて報告し,問題点の見識と性能基準を提供する。
(iv)MIDRタスクに効果的なデータセットを作成する機能に関する位置を提供する。
関連論文リスト
- H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - An analysis of document graph construction methods for AMR summarization [2.055054374525828]
本稿では,文書と要約のノード間のアライメントを人間にアノテートした新しいデータセットを提案する。
本稿では,これらの2種類の評価方法とノードマージの新しい手法を適用し,新しい手法が従来の方法よりもはるかに優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-11-27T22:12:50Z) - A Practical & Unified Notation for Information-Theoretic Quantities in
ML [35.427966046976366]
正しい表記法は価値ある直観を伝え、簡潔に新しい考えを表現することができる。
本稿では、機械学習ユーザのための表記法を提案し、イベント(アウトカム)とランダム変数の間の情報理論量を含むように拡張する。
論文 参考訳(メタデータ) (2021-06-22T21:18:17Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z) - Aspect Term Extraction using Graph-based Semi-Supervised Learning [1.0499611180329804]
本稿では,アスペクト項抽出のためのグラフに基づく半教師付き学習手法を提案する。
レビュー文書内の識別されたトークンはすべて、ラベル付きトークンの小さなセットからアスペクトまたは非アスペクトの用語に分類される。
提案手法は, 認識されたアスペクト項に関連付けられた意見語の極性を決定するために, さらに拡張された。
論文 参考訳(メタデータ) (2020-02-20T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。