論文の概要: A Framework For Refining Text Classification and Object Recognition from
Academic Articles
- arxiv url: http://arxiv.org/abs/2305.17401v2
- Date: Wed, 31 May 2023 06:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 12:10:28.405844
- Title: A Framework For Refining Text Classification and Object Recognition from
Academic Articles
- Title(参考訳): 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク
- Authors: Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa
- Abstract要約: 現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。
我々は,機械学習とルールベースのスキームハイブリッドであるテクストブロックリファインメントフレームワーク(TBRF)を開発した。
- 参考スコア(独自算出の注目度): 5.161531917413708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread use of the internet, it has become increasingly crucial
to extract specific information from vast amounts of academic articles
efficiently. Data mining techniques are generally employed to solve this issue.
However, data mining for academic articles is challenging since it requires
automatically extracting specific patterns in complex and unstructured layout
documents. Current data mining methods for academic articles employ
rule-based(RB) or machine learning(ML) approaches. However, using rule-based
methods incurs a high coding cost for complex typesetting articles. On the
other hand, simply using machine learning methods requires annotation work for
complex content types within the paper, which can be costly. Furthermore, only
using machine learning can lead to cases where patterns easily recognized by
rule-based methods are mistakenly extracted. To overcome these issues, from the
perspective of analyzing the standard layout and typesetting used in the
specified publication, we emphasize implementing specific methods for specific
characteristics in academic articles. We have developed a novel Text Block
Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid.
We used the well-known ACL proceeding articles as experimental data for the
validation experiment. The experiment shows that our approach achieved over 95%
classification accuracy and 90% detection accuracy for tables and figures.
- Abstract(参考訳): インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。
データマイニング技術は一般にこの問題を解決するために用いられる。
しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。
現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。
しかし、ルールベースの手法を用いることで複雑なタイプセット記事のコーディングコストが高くなる。
一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。
さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。
これらの課題を克服するために,特定出版物で使用される標準レイアウトと型設定の分析の観点から,学術論文に特有の特徴を具体化する手法を強調する。
我々は,機械学習とルールベースのスキームハイブリッドであるテキストブロック精錬フレームワーク(TBRF)を開発した。
検証実験では,有名なACL論文を実験データとして使用した。
実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。
関連論文リスト
- Topological Methods in Machine Learning: A Tutorial for Practitioners [4.297070083645049]
トポロジカル機械学習(TML)は、代数的トポロジの技法を利用して複雑なデータ構造を分析する分野である。
このチュートリアルは、2つの重要なTMLテクニック、永続的ホモロジーとMapperアルゴリズムの包括的な紹介を提供する。
アクセシビリティを高めるために、私たちはデータ中心のアプローチを採用し、読者はこれらのテクニックを関連するタスクに適用したハンズオン体験を得ることができる。
論文 参考訳(メタデータ) (2024-09-04T17:44:52Z) - Deep Learning-Driven Approach for Handwritten Chinese Character Classification [0.0]
手書き文字認識は、機械学習研究者にとって難しい問題である。
多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。
本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-30T15:29:32Z) - Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T15:36:49Z) - Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。
論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文 参考訳(メタデータ) (2023-09-24T21:49:51Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Bias and unfairness in machine learning models: a systematic literature
review [43.55994393060723]
本研究の目的は,機械学習モデルにおけるバイアスと不公平性に関する既存の知識を検討することである。
The Systematic Literature Reviewによると、2017年から2022年にかけて、Scoops、IEEE Xplore、Web of Science、Google Scholarの知識ベースで40の論文が出版された。
論文 参考訳(メタデータ) (2022-02-16T16:27:00Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。