論文の概要: Machine Learning Classification of Peaceful Countries: A Comparative Analysis and Dataset Optimization
- arxiv url: http://arxiv.org/abs/2410.03749v1
- Date: Tue, 1 Oct 2024 19:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:40:48.990518
- Title: Machine Learning Classification of Peaceful Countries: A Comparative Analysis and Dataset Optimization
- Title(参考訳): 平和な国の機械学習分類:比較分析とデータセット最適化
- Authors: K. Lian, L. S. Liebovitch, M. Wild, H. West, P. T. Coleman, F. Chen, E. Kimani, K. Sieck,
- Abstract要約: 本稿では,グローバルメディア記事から抽出した言語パターンを用いて,各国を平和的・非平和的に分類する機械学習手法を提案する。
我々は,平和な国を効果的に識別する教師付き分類モデルを開発するために,ベクトル埋め込みとコサイン類似性を用いている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a machine learning approach to classify countries as peaceful or non-peaceful using linguistic patterns extracted from global media articles. We employ vector embeddings and cosine similarity to develop a supervised classification model that effectively identifies peaceful countries. Additionally, we explore the impact of dataset size on model performance, investigating how shrinking the dataset influences classification accuracy. Our results highlight the challenges and opportunities associated with using large-scale text data for peace studies.
- Abstract(参考訳): 本稿では,グローバルメディア記事から抽出した言語パターンを用いて,各国を平和的・非平和的に分類する機械学習手法を提案する。
我々は,平和な国を効果的に識別する教師付き分類モデルを開発するために,ベクトル埋め込みとコサイン類似性を利用する。
さらに,データセットサイズがモデル性能に与える影響について検討し,データセットの縮小が分類精度に与える影響について検討する。
本研究は,大規模テキストデータを用いた平和研究における課題と機会を浮き彫りにしたものである。
関連論文リスト
- Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Under the Microscope: Interpreting Readability Assessment Models for
Filipino [0.0]
フィリピンにおける機械学習に基づく可読性評価モデルを,グローバルモデルとローカルモデルによる解釈によって識別する。
その結果,大域的解釈から上位特徴を学習したモデルを用いることで,スピアマン相関による特徴を用いたモデルよりも高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-01T01:27:10Z) - Geo-Spatiotemporal Features and Shape-Based Prior Knowledge for
Fine-grained Imbalanced Data Classification [63.916371837696396]
細粒度分類は、類似のグローバル知覚とパターンを持つ項目を区別することを目的としているが、細部によって異なる。
私たちの主な課題は、小さなクラス間バリエーションと大きなクラス内バリエーションの両方から来ています。
我々は,野生生物の利用事例における細粒度分類を改善するため,いくつかの革新を組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-03-21T02:01:38Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。