論文の概要: Annotations for Exploring Food Tweets From Multiple Aspects
- arxiv url: http://arxiv.org/abs/2412.06179v1
- Date: Mon, 09 Dec 2024 03:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:19.199983
- Title: Annotations for Exploring Food Tweets From Multiple Aspects
- Title(参考訳): 複数の側面から食のつぶやきを探索するアノテーション
- Authors: Matīss Rikters, Edison Marrese-Taylor, Rinalds Vīksna,
- Abstract要約: この研究はLatvian Twitter Eater Corpus(LTEC)に基づいており、食べ物、飲み物、食事、飲酒に関するツイートの狭い領域に焦点を当てている。
LTECは12年以上にわたって収集され、基本的な情報とともに300万近いツイートに到達し、自動および手動の注釈付きメタデータも拡張された。
本稿では、LTECに機械翻訳、名前付きエンティティ認識、タイムラインバランスの取れた感情分析、テキスト画像関係分類など、手動でアノテートされた評価データのサブセットを補足する。
- 参考スコア(独自算出の注目度): 1.9838541043120719
- License:
- Abstract: This research builds upon the Latvian Twitter Eater Corpus (LTEC), which is focused on the narrow domain of tweets related to food, drinks, eating and drinking. LTEC has been collected for more than 12 years and reaching almost 3 million tweets with the basic information as well as extended automatically and manually annotated metadata. In this paper we supplement the LTEC with manually annotated subsets of evaluation data for machine translation, named entity recognition, timeline-balanced sentiment analysis, and text-image relation classification. We experiment with each of the data sets using baseline models and highlight future challenges for various modelling approaches.
- Abstract(参考訳): この研究はLatvian Twitter Eater Corpus(LTEC)に基づいており、食べ物、飲み物、食事、飲酒に関するツイートの狭い領域に焦点を当てている。
LTECは12年以上にわたって収集され、基本的な情報とともに300万近いツイートに到達し、自動および手動の注釈付きメタデータも拡張された。
本稿では、LTECに機械翻訳、名前付きエンティティ認識、タイムラインバランスの取れた感情分析、テキスト画像関係分類など、手動でアノテートされた評価データのサブセットを補足する。
ベースラインモデルを用いて各データセットを実験し、様々なモデリングアプローチにおける今後の課題を強調した。
関連論文リスト
- Decoding MIE: A Novel Dataset Approach Using Topic Extraction and Affiliation Parsing [0.0]
本研究は,医療情報学ヨーロッパ(MIE)会議の手続きから得られた新しいデータセットを紹介する。
我々は,「健康技術・情報学研究」誌の4,606論文からメタデータと要約を抽出し,分析した。
論文 参考訳(メタデータ) (2024-10-06T19:34:23Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Optimal Strategies to Perform Multilingual Analysis of Social Content
for a Novel Dataset in the Tourism Domain [5.848712585343905]
大規模な多言語言語モデル上で、少数ショット、パターン探索、微調整の機械学習技術を評価する。
我々は,3つの共通NLPタスクにおいて,優れた性能を実現するのに必要な注釈付きサンプルの量を確認することを目的としている。
この作業は、NLPを新しいドメイン固有のアプリケーションに適用する方法を舗装する。
論文 参考訳(メタデータ) (2023-11-20T13:08:21Z) - A Benchmark for Text Expansion: Datasets, Metrics, and Baselines [87.47745669317894]
本研究はテキスト拡張(TE)の新たな課題として,平文の適切な位置に細粒度修飾子を挿入することを目的とする。
補完的な4つのアプローチを活用して、1200万の自動生成インスタンスと2Kの人間注釈付き参照を持つデータセットを構築します。
事前訓練されたテキストインフィルモデルの上にパイプラインと共同でLocate&Infillモデルを構築し、Text2Textベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T07:54:38Z) - Tweet Insights: A Visualization Platform to Extract Temporal Insights
from Twitter [19.591692602304494]
本稿では,Twitterから得られた時系列データの大規模な収集について紹介する。
このデータは過去5年間に渡り、n-gramの頻度、類似性、感情、トピックの分布の変化を捉えている。
このデータの上に構築されたインタフェースは、時間的分析によって意味の変化を検出し、特徴付けることができる。
論文 参考訳(メタデータ) (2023-08-04T05:39:26Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Deriving Disinformation Insights from Geolocalized Twitter Callouts [7.951685935253415]
本稿では,地理空間分類と埋め込み型言語モデリングの組み合わせを応用して,偽情報に関連するソーシャルメディアデータから洞察を得る2段階の手法を示す。
TwitterデータはBERTを使用してヨーロッパと非ヨーロッパに分類される。
Word2vecは、Eurocentric, non-Eurocentric and global representations of the data for the three target languagesである。
論文 参考訳(メタデータ) (2021-08-06T11:39:05Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - What Can We Learn From Almost a Decade of Food Tweets [4.56877715768796]
私たちはラトビアのTwitter Eater Corpusを紹介します。これは、食べ物、飲み物、食事、飲酒に関連する狭い領域における一連のツイートです。
コーパスは8年以上にわたって収集され、200万以上のツイートと有用なデータが含まれている。
論文 参考訳(メタデータ) (2020-07-10T06:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。