論文の概要: An N-gram based approach to auto-extracting topics from research
articles
- arxiv url: http://arxiv.org/abs/2110.11879v1
- Date: Tue, 7 Sep 2021 04:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 22:35:32.957809
- Title: An N-gram based approach to auto-extracting topics from research
articles
- Title(参考訳): N-gramに基づく研究論文の自動抽出手法
- Authors: Linkai Zhu, Maoyi Huang, Maomao Chen, Wennan Wang
- Abstract要約: 本稿では,大量の記事のテキストからトピックを自動的に抽出することで,この問題に対処することを目的としている。
本研究は,既存のN-gram分析に基づいて,話題の自動抽出を支援するために,文書に特定の単語が出現する頻度について検討する。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lot of manual work goes into identifying a topic for an article. With a
large volume of articles, the manual process can be exhausting. Our approach
aims to address this issue by automatically extracting topics from the text of
large Numbers of articles. This approach takes into account the efficiency of
the process. Based on existing N-gram analysis, our research examines how often
certain words appear in documents in order to support automatic topic
extraction. In order to improve efficiency, we apply custom filtering standards
to our research. Additionally, delete as many noncritical or irrelevant phrases
as possible. In this way, we can ensure we are selecting unique keyphrases for
each article, which capture its core idea. For our research, we chose to center
on the autonomous vehicle domain, since the research is relevant to our daily
lives. We have to convert the PDF versions of most of the research papers into
editable types of files such as TXT. This is because most of the research
papers are only in PDF format. To test our proposed idea of automating,
numerous articles on robotics have been selected. Next, we evaluate our
approach by comparing the result with that obtained manually.
- Abstract(参考訳): 記事のトピックを特定するには、多くの手作業が必要になります。
大量の記事があれば、手動のプロセスは枯渇します。
本研究の目的は,大量の記事のテキストから話題を自動的に抽出することである。
このアプローチはプロセスの効率を考慮に入れます。
本研究は,既存のn-gram分析に基づいて,特定の単語が文書に出現する頻度を調査し,トピックの自動抽出を支援する。
効率を向上させるために,独自のフィルタリング基準を研究に適用する。
さらに、できるだけ多くの非批判的あるいは無関係なフレーズを削除する。
このようにして、各記事に対してユニークなキーフレーズを選択し、その中核となるアイデアを捉えることができる。
私たちの研究では、研究は私たちの日常生活に関係しているので、自律走行車ドメインに集中することを選択しました。
研究論文のpdf版をtxtのような編集可能な種類のファイルに変換する必要があります。
これは、ほとんどの研究論文がPDF形式であるからである。
提案する自動化のアイデアをテストするため、ロボティクスに関する多数の記事が選択されました。
次に,手作業で得られた結果と比較し,そのアプローチを評価する。
関連論文リスト
- RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Revisiting Automated Topic Model Evaluation with Large Language Models [82.93251466435208]
より大きな言語モデルは、結果のトピックを適切に評価する。
次に,大規模言語モデルを用いてトピックの最適な数を自動的に決定できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-20T09:42:00Z) - Tell Me How to Survey: Literature Review Made Simple with Automatic
Reading Path Generation [16.07200776251764]
論文を大量の文献から読めば、簡単な調査をしたり、特定の研究トピックに関する最新の進歩に遅れないようにする方法が課題になっている。
Google Scholarのような既存の学術検索エンジンは、各論文とクエリ間の関連性を個別に計算することで、関連論文を返す。
本稿では,あるクエリに対して読み込む論文のパスを自動生成することを目的とした読解パス生成(RPG)を紹介する。
論文 参考訳(メタデータ) (2021-10-12T20:58:46Z) - Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文 参考訳(メタデータ) (2021-10-09T06:32:09Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - A Joint Learning Approach based on Self-Distillation for Keyphrase
Extraction from Scientific Documents [29.479331909227998]
キーフレーズ抽出(英: Keyphrase extract)は、文書を最もよく記述するフレーズの小さなセットを抽出するタスクである。
タスクの既存のベンチマークデータセットは、通常、注釈付きドキュメントの数に制限がある。
本稿では, 自己蒸留の考え方に基づく, シンプルで効率的な共同学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T18:36:31Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。