論文の概要: Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus
- arxiv url: http://arxiv.org/abs/2509.19033v2
- Date: Wed, 24 Sep 2025 07:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.849554
- Title: Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus
- Title(参考訳): イタリアにおける計算言語学の10年を振り返る: CLiC-it Corpus
- Authors: Chiara Alzetta, Serena Auriemma, Alessandro Bondielli, Luca Dini, Chiara Fazzone, Alessio Miaschi, Martina Miliani, Marta Sartor,
- Abstract要約: イタリアのCLとNLPコミュニティの研究動向をCLiC-itへの貢献の分析を通じて追跡する。
我々は、CLiC-itカンファレンスの最初の10版からCLiC-it Corpusに手続きをコンパイルする。
我々の目標は、イタリアと国際的な研究コミュニティに、新たなトレンドや重要な発展に関する貴重な洞察を提供することです。
- 参考スコア(独自算出の注目度): 38.671466605067835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Over the past decade, Computational Linguistics (CL) and Natural Language Processing (NLP) have evolved rapidly, especially with the advent of Transformer-based Large Language Models (LLMs). This shift has transformed research goals and priorities, from Lexical and Semantic Resources to Language Modelling and Multimodality. In this study, we track the research trends of the Italian CL and NLP community through an analysis of the contributions to CLiC-it, arguably the leading Italian conference in the field. We compile the proceedings from the first 10 editions of the CLiC-it conference (from 2014 to 2024) into the CLiC-it Corpus, providing a comprehensive analysis of both its metadata, including author provenance, gender, affiliations, and more, as well as the content of the papers themselves, which address various topics. Our goal is to provide the Italian and international research communities with valuable insights into emerging trends and key developments over time, supporting informed decisions and future directions in the field.
- Abstract(参考訳): 過去10年間で、計算言語学(CL)と自然言語処理(NLP)は急速に発展し、特にトランスフォーマーベースの大規模言語モデル(LLM)が出現した。
このシフトは、研究目標と優先順位を、レキシカルリソースやセマンティックリソースから言語モデリングやマルチモダリティへと変えました。
本研究では,イタリアのCLとNLPコミュニティの研究動向を,CLiC-itへの貢献の分析を通じて追跡する。
我々は、CLiC-itカンファレンスの最初の10版(2014~2024)からCLiC-it Corpusに手続きをコンパイルし、著者の出典、性別、所属関係などを含むメタデータと、さまざまな話題を扱う論文の内容の両方を包括的に分析する。
我々のゴールは、イタリアと国際的な研究コミュニティに、新たなトレンドや重要な発展に対する貴重な洞察を提供し、この分野における情報的決定と今後の方向性をサポートすることです。
関連論文リスト
- Testimole-Conversational: A 30-Billion-Word Italian Discussion Board Corpus (1996-2024) for Language Modeling and Sociolinguistic Research [2.609902663466295]
本稿では,イタリア語におけるディスカッション掲示板の膨大なコレクションについて紹介する。
コーパスの大きさは30Bワードトケン(1996-2024)を超えており、イタリア原産の大規模言語モデルの事前学習のための理想的なデータセットである。
コーパスは様々なコンピュータによるコミュニケーションを捉え、非公式に書かれたイタリア語、談話力学、オンラインの社会的相互作用に関する洞察を提供する。
論文 参考訳(メタデータ) (2026-02-16T15:12:46Z) - Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.15403461273178]
2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。
分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。
これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
論文 参考訳(メタデータ) (2026-01-21T16:47:05Z) - Challenging the Abilities of Large Language Models in Italian: a Community Initiative [63.94242079171895]
The Abilities of LAnguage Models in ITAlian (CALAMITA)は、イタリアにおける大規模共同ベンチマークイニシアチブである。
学術、産業、公共部門から80人以上のコントリビュータを集め、多様なタスクの設計、文書化、評価を行っている。
我々は,4つのオープンウェイトLDMの結果を報告し,能力の体系的強度と弱点を強調した。
論文 参考訳(メタデータ) (2025-12-04T12:50:29Z) - PLLuM: A Family of Polish Large Language Models [91.61661675434216]
ポーランド語に特化した基盤モデルの最大のオープンソースファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションであるPolish Large Language Modelを提示する。
本研究は,新たに140ビリオンのポーランド語テキストコーパスの構築を含む,事前学習のための開発プロセスについて述べる。
モデルアーキテクチャ、トレーニング手順、およびベースおよび命令調整された派生モデルのアライメント技術について詳述する。
論文 参考訳(メタデータ) (2025-11-05T19:41:49Z) - What fifty-one years of Linguistics and Artificial Intelligence research tell us about their correlation: A scientometric analysis [0.0]
この研究は、1974年から2024年までの51年間にわたる知的生産を合成し、この相関関係を徹底的に科学的に分析する。
その結果、1980年代から1990年代にかけて、言語学とAI(AIL)の研究は、時間とともに不安定な出版によって特徴づけられ、堅牢ではなかったことが示唆された。
言語学とAIの相関関係は、いくつかのレベル、研究センター、ジャーナル、そしてAILの知識生産を形作り、将来のフロンティアを形作る国で確立されていると結論付けている。
論文 参考訳(メタデータ) (2024-11-29T17:12:06Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [25.182666420286132]
自然に発生するCLSリソースの希少さを考えると、データセットの大部分は翻訳に頼らざるを得ない。
これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。
我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (2023-03-07T17:52:51Z) - A Survey of Code-switching: Linguistic and Social Perspectives for
Language Technologies [8.202739294785086]
我々は,言語工学における重要な課題を反映して,言語学の文献を網羅するコードスイッチング(C-S)について調査する。
言語学的観点から、ヨーロッパやインドの文脈からの文献に焦点を当てたC-Sの構造的・機能的パターンの概要を述べる。
言語技術の観点から、適切なトレーニングデータがないため、大規模言語モデルが多様なC-S型を表現できないかについて議論する。
論文 参考訳(メタデータ) (2023-01-05T09:08:04Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - The State and Fate of Linguistic Diversity and Inclusion in the NLP
World [12.936270946393483]
言語技術は、世界中の多言語主義と言語多様性の促進に寄与している。
世界中で7000を超える言語のごく少数のみが、急速に進化する言語技術やアプリケーションで表現されている。
論文 参考訳(メタデータ) (2020-04-20T07:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。