論文の概要: Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research
- arxiv url: http://arxiv.org/abs/2602.14819v1
- Date: Mon, 16 Feb 2026 15:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.478849
- Title: Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research
- Title(参考訳): 言語モデリングと社会言語研究のための30-Billion-Word Italian discussion Board Corpus (1996-2024)
- Authors: Matteo Rinaldi, Rossella Varvara, Viviana Patti,
- Abstract要約: 本稿では,イタリア語におけるディスカッション掲示板の膨大なコレクションについて紹介する。
コーパスの大きさは30Bワードトケン(1996-2024)を超えており、イタリア原産の大規模言語モデルの事前学習のための理想的なデータセットである。
コーパスは様々なコンピュータによるコミュニケーションを捉え、非公式に書かれたイタリア語、談話力学、オンラインの社会的相互作用に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 2.609902663466295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present "Testimole-conversational" a massive collection of discussion boards messages in the Italian language. The large size of the corpus, more than 30B word-tokens (1996-2024), renders it an ideal dataset for native Italian Large Language Models'pre-training. Furthermore, discussion boards' messages are a relevant resource for linguistic as well as sociological analysis. The corpus captures a rich variety of computer-mediated communication, offering insights into informal written Italian, discourse dynamics, and online social interaction in wide time span. Beyond its relevance for NLP applications such as language modelling, domain adaptation, and conversational analysis, it also support investigations of language variation and social phenomena in digital communication. The resource will be made freely available to the research community.
- Abstract(参考訳): 本稿では,イタリア語におけるディスカッション掲示板の膨大なコレクションについて紹介する。
コーパスの大きさは30Bワードトケン(1996-2024)を超えており、イタリア原産の大規模言語モデルの事前学習のための理想的なデータセットである。
さらに、議論掲示板のメッセージは、言語と社会学的分析の関連資源である。
コーパスは様々なコンピュータによるコミュニケーションを捉え、非公式に書かれたイタリア語、談話力学、幅広い時間におけるオンラインの社会的相互作用に関する洞察を提供する。
言語モデリング、ドメイン適応、会話分析などのNLPアプリケーションとの関連性に加えて、デジタルコミュニケーションにおける言語の変化や社会現象の調査も支援している。
リソースは研究コミュニティに無償で提供されます。
関連論文リスト
- Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus [38.671466605067835]
イタリアのCLとNLPコミュニティの研究動向をCLiC-itへの貢献の分析を通じて追跡する。
我々は、CLiC-itカンファレンスの最初の10版からCLiC-it Corpusに手続きをコンパイルする。
我々の目標は、イタリアと国際的な研究コミュニティに、新たなトレンドや重要な発展に関する貴重な洞察を提供することです。
論文 参考訳(メタデータ) (2025-09-23T14:06:09Z) - Linguistic Nepotism: Trading-off Quality for Language Preference in Multilingual RAG [55.258582772528506]
異なる文書言語の混合が意図しない方法で生成と引用に影響を及ぼすかどうかを検討する。
8つの言語と6つのオープンウェイトモデルにまたがって、クエリが英語である場合、モデルは優先的に英語ソースを引用する。
モデルが言語嗜好のトレードオフ文書関連性を示すことがあり、引用選択が情報のみによって常に駆動されるわけではないことが分かる。
論文 参考訳(メタデータ) (2025-09-17T12:58:18Z) - ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts [0.0]
英語のTwitter投稿から言語コーパスの開発と展開について述べる。
主な目標は、言語分析のための完全な注釈付き英語コーパスを作ることであった。
形態や構文に関する情報に加えて,トークン化やレムマ,n-gramなどのNLP機能も含んでいます。
論文 参考訳(メタデータ) (2024-07-22T04:48:04Z) - Neural Conversation Models and How to Rein Them in: A Survey of Failures
and Fixes [17.489075240435348]
最近の条件付き言語モデルは、しばしば流動的な方法で、あらゆる種類のテキストソースを継続することができる。
言語の観点から言えば、会話への貢献は高い。
最近のアプローチでは、基礎となる言語モデルを様々な介入ポイントでテームしようと試みている。
論文 参考訳(メタデータ) (2023-08-11T12:07:45Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Mix and Match: An Empirical Study on Training Corpus Composition for
Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。
学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文 参考訳(メタデータ) (2022-07-04T15:23:06Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。