論文の概要: Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese
- arxiv url: http://arxiv.org/abs/2403.00509v1
- Date: Fri, 1 Mar 2024 13:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:14:10.042000
- Title: Surveying the Dead Minds: Historical-Psychological Text Analysis with
Contextualized Construct Representation (CCR) for Classical Chinese
- Title(参考訳): デッドマインドの調査:古典中国語の文脈的構成表現(CCR)を用いた歴史的・心理学的テキスト分析
- Authors: Yuqi Chen, Sixuan Li, Ying Li and Mohammad Atari
- Abstract要約: 古典中国語における歴史的・心理学的テキスト分析のためのパイプラインを構築した。
このパイプラインは、サイコメトリックにおける専門家の知識と、トランスフォーマーベースの言語モデルによって生成されたテキスト表現を組み合わせる。
利用可能なデータの不足を考慮し,間接的教師付きコントラスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 4.772998830872483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we develop a pipeline for historical-psychological text
analysis in classical Chinese. Humans have produced texts in various languages
for thousands of years; however, most of the computational literature is
focused on contemporary languages and corpora. The emerging field of historical
psychology relies on computational techniques to extract aspects of psychology
from historical corpora using new methods developed in natural language
processing (NLP). The present pipeline, called Contextualized Construct
Representations (CCR), combines expert knowledge in psychometrics (i.e.,
psychological surveys) with text representations generated via
transformer-based language models to measure psychological constructs such as
traditionalism, norm strength, and collectivism in classical Chinese corpora.
Considering the scarcity of available data, we propose an indirect supervised
contrastive learning approach and build the first Chinese historical psychology
corpus (C-HI-PSY) to fine-tune pre-trained models. We evaluate the pipeline to
demonstrate its superior performance compared with other approaches. The CCR
method outperforms word-embedding-based approaches across all of our tasks and
exceeds prompting with GPT-4 in most tasks. Finally, we benchmark the pipeline
against objective, external data to further verify its validity.
- Abstract(参考訳): 本研究では,古典中国語の歴史的・心理学的テキスト分析のためのパイプラインを開発した。
人間は何千年もの間、様々な言語でテキストを制作してきたが、計算文学の大部分は現代言語とコーパスに焦点を当てている。
歴史心理学の新たな分野は、自然言語処理(NLP)で開発された新しい手法を用いて、歴史コーパスから心理学の側面を抽出する計算技術に依存している。
現在のパイプラインはccr(contextized construct representations)と呼ばれ、心理学的調査(psychological surveys)の専門知識とトランスフォーマティブに基づく言語モデルによって生成されたテキスト表現を組み合わせることで、古典中国のコーパスにおける伝統主義、規範的強さ、集合主義などの心理的構成を計測している。
利用可能なデータが少ないことを考慮し、間接的に教師付きコントラスト学習手法を提案し、事前学習モデルに中国初の歴史心理学コーパス(c-hi-psy)を構築する。
他のアプローチと比べて優れたパフォーマンスを示すためにパイプラインを評価します。
CCR法は,全てのタスクにおいて単語埋め込みに基づくアプローチよりも優れており,ほとんどのタスクにおいて GPT-4 よりも優れている。
最後に、パイプラインを客観的な外部データに対してベンチマークし、その妥当性をさらに検証する。
関連論文リスト
- CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations [28.097820924530655]
CPsyExamは心理学的知識とケース分析を別々に優先するよう設計されている。
22kの質問のプールから4kを使ってベンチマークを作成します。
論文 参考訳(メタデータ) (2024-05-16T16:02:18Z) - A Tutorial on the Pretrain-Finetune Paradigm for Natural Language Processing [2.7038841665524846]
Pretrain-finetune パラダイムは、テキスト分析と自然言語処理における変換的アプローチを表している。
このチュートリアルは、プレトレイン-ファインチューンパラダイムの包括的な紹介を提供する。
論文 参考訳(メタデータ) (2024-03-04T21:51:11Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - A Survey of Text Representation Methods and Their Genealogy [0.0]
近年、高度にスケーラブルな人工神経ネットワークベースのテキスト表現法が出現し、自然言語処理の分野は前例のない成長と高度化が見られた。
我々は、系譜にそれらを配置し、テキスト表現方法の分類を概念化し、最先端の状態を検証し、説明することによって、現在のアプローチに関する調査を行う。
論文 参考訳(メタデータ) (2022-11-26T15:22:01Z) - Concepts and Experiments on Psychoanalysis Driven Computing [0.0]
本研究では,テキストを用いたインタラクティブメディアにおけるヒューマンファクターとユーザ認知の効果的な取り込みについて検討する。
我々は、ラカンの談話型の概念を用いて、テキストの実際の特性、品質、内容を捉え、深く理解する。
計算手法が精神分析と体系的に組み合わされるのはこれが初めてである。
論文 参考訳(メタデータ) (2022-09-29T19:27:22Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。