論文の概要: On-Device Tag Generation for Unstructured Text
- arxiv url: http://arxiv.org/abs/2012.02983v1
- Date: Sat, 5 Dec 2020 09:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:08:35.985613
- Title: On-Device Tag Generation for Unstructured Text
- Title(参考訳): 非構造化テキストのオンデバイスタグ生成
- Authors: Manish Chugani, Shubham Vatsal, Gopi Ramena, Sukumar Moharana, Naresh
Purre
- Abstract要約: 本稿では,非構造化テキストに存在するキーワードや概念に基づいて,世界知識を用いてタグの集合を生成する新しいパイプラインを提案する。
アーキテクチャはまた、任意のテキストからトップnタグを抽出する新しいランキングアルゴリズムも提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the overwhelming transition to smart phones, storing important
information in the form of unstructured text has become habitual to users of
mobile devices. From grocery lists to drafts of emails and important speeches,
users store a lot of data in the form of unstructured text (for eg: in the
Notes application) on their devices, leading to cluttering of data. This not
only prevents users from efficient navigation in the applications but also
precludes them from perceiving the relations that could be present across data
in those applications. This paper proposes a novel pipeline to generate a set
of tags using world knowledge based on the keywords and concepts present in
unstructured textual data. These tags can then be used to summarize, categorize
or search for the desired information thus enhancing user experience by
allowing them to have a holistic outlook of the kind of information stored in
the form of unstructured text. In the proposed system, we use an on-device
(mobile phone) efficient CNN model with pruned ConceptNet resource to achieve
our goal. The architecture also presents a novel ranking algorithm to extract
the top n tags from any given text.
- Abstract(参考訳): スマートフォンへの圧倒的な移行に伴い、重要な情報を構造化されていないテキスト形式で保存することは、モバイルデバイスのユーザにとって習慣になっている。
食料品のリストからメールや重要なスピーチのドラフトまで、ユーザーはデバイスに大量のデータを構造化されていないテキスト(例えばNotesアプリケーション)として保存し、データの散らかしにつながる。
これにより、ユーザはアプリケーションの効率的なナビゲーションを防げるだけでなく、それらのアプリケーションのデータにまたがる関係を認識できなくなる。
本稿では,非構造化テキストデータに存在するキーワードや概念に基づいて,世界知識を用いたタグセットを生成する新しいパイプラインを提案する。
これらのタグは、望まれる情報を要約、分類、検索するために使用でき、したがって、構造化されていないテキストの形式で格納された情報の全体的な展望をユーザエクスペリエンスを高めることができる。
提案システムでは,pruned conceptnetリソースを用いたオンデバイス(携帯電話)効率的なcnnモデルを用いて目標を達成している。
アーキテクチャはまた、任意のテキストからトップnタグを抽出する新しいランキングアルゴリズムも提示する。
関連論文リスト
- ChartifyText: Automated Chart Generation from Data-Involved Texts via LLM [16.87320295911898]
科学研究、経済、公衆衛生、ジャーナリズムなどの様々な応用において、関連する数値を持つ文書が広く使われている。
この研究のギャップを埋めるために、この研究はグラフを自動的に生成し、基礎となるデータとアイデアを読者に正確に伝えることを目的としている。
本稿では,Large Language Models (LLMs) を利用して複雑なデータ関連テキストを表現型チャートに変換する,新しい完全自動化アプローチであるChartifyTextを提案する。
論文 参考訳(メタデータ) (2024-10-18T09:43:30Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Hierarchical Knowledge Distillation on Text Graph for Data-limited
Attribute Inference [5.618638372635474]
我々は,ソーシャルメディアのテキストデータに基づく属性推論のためのテキストグラフに基づく少ショット学習モデルを開発した。
我々のモデルはまず、多様体学習とメッセージパッシングを用いてテキストグラフを構築し、洗練する。
クロスドメインテキストと未ラベルテキストをさらに活用して、少数ショットのパフォーマンスを向上させるために、テキストグラフ上で階層的な知識蒸留が考案される。
論文 参考訳(メタデータ) (2024-01-10T05:50:34Z) - Intuitive Access to Smartphone Settings Using Relevance Model Trained by
Contrastive Learning [7.999822329997281]
本稿では,直感的・文脈的検索クエリを受け入れるモバイル機能検索システムを提案する。
我々は、クエリ埋め込みとインデックス付きモバイル機能の間の文脈的関連性を知覚するために、事前訓練された言語モデルからのコントラスト学習を通じて関連モデルを訓練した。
論文 参考訳(メタデータ) (2023-07-15T08:18:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Creating Custom Event Data Without Dictionaries: A Bag-of-Tricks [4.06061049778407]
イベント・データ(英: Event data)とは、テキストから自動的に抽出される、誰が何をしたかの構造化された記録であり、国際政治学者にとって重要なデータ源である。
自然言語処理(NLP)の最近の進歩をもとに,効率的なイベントデータ生成のための「トリックの袋」について述べる。
本稿では,これらの技術がICEWSを置き換えることを意図した,新しいPOLECATグローバルイベントデータセットの作成方法について述べる。
論文 参考訳(メタデータ) (2023-04-03T19:51:00Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。