論文の概要: Dataset of Philippine Presidents Speeches from 1935 to 2016
- arxiv url: http://arxiv.org/abs/2111.06649v1
- Date: Fri, 12 Nov 2021 10:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 07:52:50.200786
- Title: Dataset of Philippine Presidents Speeches from 1935 to 2016
- Title(参考訳): 1935年から2016年までのフィリピン大統領演説のデータセット
- Authors: John Paul P. Miranda
- Abstract要約: データセットの最上位の単語は“開発”です。
この研究は、大統領が毎年の演説で国に対するビジョンを表現していることを示している。
また、1935年から2016年までの大統領も任期中に同様の問題に直面した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dataset was collected to examine and identify possible key topics within
these texts. Data preparation such as data cleaning, transformation,
tokenization, removal of stop words from both English and Filipino, and word
stemming was employed in the dataset before feeding it to sentiment analysis
and the LDA model. The topmost occurring word within the dataset is
"development" and there are three (3) likely topics from the speeches of
Philippine presidents: economic development, enhancement of public services,
and addressing challenges. The dataset was able to provide valuable insights
contained among official documents. While the study showed that presidents have
used their annual address to express their visions for the country. It also
presented that the presidents from 1935 to 2016 faced the same problems during
their term. Future researchers may collect other speeches made by presidents
during their term; combine them to the dataset used in this study to further
investigate these important texts by subjecting them to the same methodology
used in this study. The dataset may be requested from the authors and it is
recommended for further analysis. For example, determine how the speeches of
the president reflect the preamble or foundations of the Philippine
constitution.
- Abstract(参考訳): データセットは収集され、これらのテキストの中で考えられる主要なトピックを調べ、特定した。
データクリーニング、トランスフォーメーション、トークン化、英語とフィリピン語の両方からの停止語除去、単語スリーミングといったデータ準備は、感情分析とLDAモデルにフィードバックする前にデータセットに採用された。
データセットの中で最も多く発生している単語は「開発」であり、フィリピン大統領の演説から3つのトピックが考えられる:経済発展、公共サービスの拡張、課題への対処である。
データセットは公式文書に含まれる貴重な洞察を提供することができた。
研究によると、大統領は毎年の演説で国に対するビジョンを表明している。
また、1935年から2016年までの大統領も任期中に同様の問題に直面した。
将来の研究者は、大統領が任期中に行った他のスピーチを収集することができる。この研究で使用されるデータセットと組み合わせることで、これらの重要なテキストをさらに調査することができる。
データセットは著者から要求され、さらなる分析のために推奨される。
例えば、大統領の演説がフィリピン憲法の前文や基礎をどのように反映するかを決定する。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Analyzing the Impact of Fake News on the Anticipated Outcome of the 2024
Election Ahead of Time [7.1970442944315245]
フェイクニュースに関する認識と研究の高まりにもかかわらず、北米の政治演説の中で人種的スラリーや偏見を特にターゲットとするデータセットは、依然として大きな必要性がある。
本研究では、これらの誤情報の重要な側面を照らす包括的データセットを紹介する。
論文 参考訳(メタデータ) (2023-12-01T20:14:16Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Leveraging Large Language Models for Topic Classification in the Domain
of Public Affairs [65.9077733300329]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。
LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (2023-06-05T13:35:01Z) - What Does the Indian Parliament Discuss? An Exploratory Analysis of the
Question Hour in the Lok Sabha [0.76146285961466]
TCPD-IPDデータセットは、1999年から2019年にかけてインド議会で議論された質問と回答の集合である。
本稿では、インサイトフルなコーパスレベルの統計と、データセットの3つのサブセットの詳細な分析について述べる。
論文 参考訳(メタデータ) (2023-04-01T05:43:22Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - A Greek Parliament Proceedings Dataset for Computational Linguistics and
Political Analysis [4.396860522241306]
我々は,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートされたデータセットを紹介した。
5,355の議会記録ファイルから抽出された、100万以上のスピーチと豊富なメタデータで構成されている。
論文 参考訳(メタデータ) (2022-10-23T23:23:28Z) - A Spanish dataset for Targeted Sentiment Analysis of political headlines [0.0]
この研究は、2019年のアルゼンチン大統領選挙で主要メディアから公開されたニュースニュースの見出しのドメインに対するターゲティング・センティメント・アナリティクス(Targeted Sentiment Analysis)の課題に対処する。
我々は、2019年の選挙の候補者を対象レベルで言及した1,976人の見出しの極性データセットを提示する。
事前訓練された言語モデルに基づく最先端分類アルゴリズムによる予備実験により,この課題に対象情報が有用であることが示唆された。
論文 参考訳(メタデータ) (2022-08-30T01:30:30Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。