論文の概要: ttta: Tools for Temporal Text Analysis
- arxiv url: http://arxiv.org/abs/2503.02625v1
- Date: Tue, 04 Mar 2025 13:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:56.538379
- Title: ttta: Tools for Temporal Text Analysis
- Title(参考訳): ttta: 一時的テキスト分析ツール
- Authors: Kai-Robin Lange, Niklas Benner, Lars Grönberg, Aymane Hachcham, Imene Kolli, Jonas Rieger, Carsten Jentsch,
- Abstract要約: ほとんどのNLP技術は、時間に関してコーパスは均質であると考えている。
これは、単語やフレーズの意味が時間とともに変化するため、バイアスのある結果につながる、単純化である。
tttaパッケージは、時間とともにテキストデータを分析するためのツールのコレクションとして機能するはずである。
- 参考スコア(独自算出の注目度): 0.48163317476588563
- License:
- Abstract: Text data is inherently temporal. The meaning of words and phrases changes over time, and the context in which they are used is constantly evolving. This is not just true for social media data, where the language used is rapidly influenced by current events, memes and trends, but also for journalistic, economic or political text data. Most NLP techniques however consider the corpus at hand to be homogenous in regard to time. This is a simplification that can lead to biased results, as the meaning of words and phrases can change over time. For instance, running a classic Latent Dirichlet Allocation on a corpus that spans several years is not enough to capture changes in the topics over time, but only portraits an "average" topic distribution over the whole time span. Researchers have developed a number of tools for analyzing text data over time. However, these tools are often scattered across different packages and libraries, making it difficult for researchers to use them in a consistent and reproducible way. The ttta package is supposed to serve as a collection of tools for analyzing text data over time.
- Abstract(参考訳): テキストデータは本質的に時間的です。
言葉や句の意味は時間とともに変化し、それらが使われる文脈は常に進化している。
これはソーシャルメディアのデータだけでなく、現在の出来事、ミーム、トレンドの影響を急速に受けているだけでなく、ジャーナリスト、経済、政治のテキストデータにも当てはまる。
しかし、ほとんどのNLP技術は、時間に関してコーパスは均質であると考えている。
これは、単語やフレーズの意味が時間とともに変化するため、バイアスのある結果につながる、単純化である。
例えば、数年にわたるコーパス上で古典的なラテント・ディリクレ・アロケーションを実行することは、時間とともにトピックの変化を捉えるのに十分ではない。
研究者たちは、テキストデータを時間をかけて分析するツールをいくつも開発した。
しかし、これらのツールは、しばしば異なるパッケージやライブラリに分散しているため、研究者が一貫した再現性のある方法で使用するのは困難である。
tttaパッケージは、時間とともにテキストデータを分析するためのツールのコレクションとして機能するはずである。
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Tweet Insights: A Visualization Platform to Extract Temporal Insights
from Twitter [19.591692602304494]
本稿では,Twitterから得られた時系列データの大規模な収集について紹介する。
このデータは過去5年間に渡り、n-gramの頻度、類似性、感情、トピックの分布の変化を捉えている。
このデータの上に構築されたインタフェースは、時間的分析によって意味の変化を検出し、特徴付けることができる。
論文 参考訳(メタデータ) (2023-08-04T05:39:26Z) - Text2Time: Transformer-based Article Time Period Prediction [0.11470070927586018]
本研究は,テキストの内容に基づいて,文章,特にニュース記事の出版時期を予測することの問題点を考察する。
私たちは、ニューヨーク・タイムズが60年以上にわたって発行した35万件以上のニュース記事のラベル付きデータセットを作成しました。
提案手法では,テキスト分類のタスク,特に時刻予測のために,事前訓練されたBERTモデルを用いている。
論文 参考訳(メタデータ) (2023-04-21T10:05:03Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Polling Latent Opinions: A Method for Computational Sociolinguistics
Using Transformer Language Models [4.874780144224057]
我々は,Yelp レビューのより大きなコーパス内で,トランスフォーマー言語モデルの記憶と外挿の能力を用いて,サブグループの言語的振る舞いを学習する。
トレーニングコーパスに特定のキーワードが制限されたり、全く存在しない場合においても、GPTは正しい感情を持つ大量のテキストを正確に生成できることを示す。
論文 参考訳(メタデータ) (2022-04-15T14:33:58Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Time Masking for Temporal Language Models [23.08079115356717]
本研究では,テキストの付加文脈として時間を用いるテンポバーベットという時間的文脈言語モデルを提案する。
本手法は,時相情報によるテキストの修正と時間マスキング(補足時間情報に対する特定のマスキング)に基づく。
論文 参考訳(メタデータ) (2021-10-12T21:15:23Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Generalized Word Shift Graphs: A Method for Visualizing and Explaining
Pairwise Comparisons Between Texts [0.15833270109954134]
計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。
一般化された単語シフトグラフを導入し、個々の単語が2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。
このフレームワークは、相対周波数、辞書スコア、Kulback-LeiblerやJensen-Shannonの発散といったエントロピーに基づく測度など、テキストの比較によく使われる多くのアプローチを自然に含んでいることを示す。
論文 参考訳(メタデータ) (2020-08-05T17:27:11Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。