Fugu-MT 論文翻訳(概要): A Framework For Refining Text Classification and Object Recognition from Academic Articles

論文の概要: A Framework For Refining Text Classification and Object Recognition from Academic Articles

arxiv url: http://arxiv.org/abs/2305.17401v2
Date: Wed, 31 May 2023 06:33:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 12:10:28.405844
Title: A Framework For Refining Text Classification and Object Recognition from Academic Articles
Title（参考訳）: 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク
Authors: Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa
Abstract要約: 現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。我々は,機械学習とルールベースのスキームハイブリッドであるテクストブロックリファインメントフレームワーク(TBRF)を開発した。
参考スコア（独自算出の注目度）: 5.161531917413708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures.
Abstract（参考訳）: インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。データマイニング技術は一般にこの問題を解決するために用いられる。しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。しかし、ルールベースの手法を用いることで複雑なタイプセット記事のコーディングコストが高くなる。一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。これらの課題を克服するために,特定出版物で使用される標準レイアウトと型設定の分析の観点から,学術論文に特有の特徴を具体化する手法を強調する。我々は,機械学習とルールベースのスキームハイブリッドであるテキストブロック精錬フレームワーク(TBRF)を開発した。検証実験では,有名なACL論文を実験データとして使用した。実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。

関連論文リスト

Automatic selection of primary studies in systematic reviews with evolutionary rule-based classification [0.30586855806896035]
我々は,論文検索プロセスから抽出した論文が関連しているかどうかを自動的に判断する進化的機械学習手法「我がモデル」を提案する。文法を用いて文法と規則の構造を定義することにより、従来のテキスト情報と最先端の手法では考慮されていない他の文献データを簡単に組み合わせることができる。
論文参考訳（メタデータ） (2025-09-28T17:13:20Z)
Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文参考訳（メタデータ） (2025-09-25T11:36:09Z)
Does Machine Unlearning Truly Remove Knowledge? [80.83986295685128]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
Applying LLMs to Active Learning: Towards Cost-Efficient Cross-Task Text Classification without Manually Labeled Data [0.0]
大規模言語モデル(LLM)をアクティブな学習フレームワークに統合する手法を提案する。提案手法は,手動でラベル付けしたデータを必要としないクロスタスクテキスト分類性能を実現する。
論文参考訳（メタデータ） (2025-02-24T06:43:19Z)
Topological Methods in Machine Learning: A Tutorial for Practitioners [4.297070083645049]
トポロジカル機械学習(TML)は、代数的トポロジの技法を利用して複雑なデータ構造を分析する分野である。このチュートリアルは、2つの重要なTMLテクニック、永続的ホモロジーとMapperアルゴリズムの包括的な紹介を提供する。アクセシビリティを高めるために、私たちはデータ中心のアプローチを採用し、読者はこれらのテクニックを関連するタスクに適用したハンズオン体験を得ることができる。
論文参考訳（メタデータ） (2024-09-04T17:44:52Z)
Deep Learning-Driven Approach for Handwritten Chinese Character Classification [0.0]
手書き文字認識は、機械学習研究者にとって難しい問題である。多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2024-01-30T15:29:32Z)
Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T15:36:49Z)
Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文参考訳（メタデータ） (2023-09-24T21:49:51Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文参考訳（メタデータ） (2022-06-05T22:31:45Z)
Bias and unfairness in machine learning models: a systematic literature review [43.55994393060723]
本研究の目的は,機械学習モデルにおけるバイアスと不公平性に関する既存の知識を検討することである。 The Systematic Literature Reviewによると、2017年から2022年にかけて、Scoops、IEEE Xplore、Web of Science、Google Scholarの知識ベースで40の論文が出版された。
論文参考訳（メタデータ） (2022-02-16T16:27:00Z)
Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文参考訳（メタデータ） (2021-11-09T13:30:34Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文参考訳（メタデータ） (2020-11-11T16:17:28Z)
Overcoming the curse of dimensionality with Laplacian regularization in semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文参考訳（メタデータ） (2020-09-09T14:28:54Z)
Bayesian active learning for production, a systematic study and a reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文参考訳（メタデータ） (2020-06-17T14:51:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。