論文の概要: SemEval-2026 Task 7: Everyday Knowledge Across Diverse Languages and Cultures
- arxiv url: http://arxiv.org/abs/2605.02601v1
- Date: Mon, 04 May 2026 13:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.314053
- Title: SemEval-2026 Task 7: Everyday Knowledge Across Diverse Languages and Cultures
- Title(参考訳): SemEval-2026 Task 7: さまざまな言語や文化に関する日々の知識
- Authors: Nedjma Ousidhoum, Junho Myung, Carla Perez-Almendros, Jiho Jin, Amr Keleg, Meriem Beloucif, Yi Zhou, Rodrigo Agerri, Vladimir Araujo, Naomi Baes, James Barry, Joanne Boisson, Nancy F. Chen, Christine de Kock, Aleksandra Edwards, Joseba Fernandez de Landa, Mohamed Fazli Imam, Huda Hakami, Shu-Kai Hsieh, Joseph Marvin Imperial, Roy Ka-Wei Lee, Zhengyuan Liu, Chenyang Lyu, Younes Samih, Johan Sjons, Bryan Tan, Asahi Ushio, Weihua Zheng, Alice Oh, Jose Camacho-Collados,
- Abstract要約: タスクデータは、手動で構築したBLEnDベンチマーク(Myung et al. 2024)の拡張バージョンで構成され、30以上の言語培養ペアをカバーする。
このタスクは厳密に評価のために設計されているため、参加者はトレーニング、微調整、数発の学習、その他のモデル修正のためにデータを使用することは許されなかった。
その結果を報告し、最も優れたシステムと最も広く採用されているアプローチについて分析する。
- 参考スコア(独自算出の注目度): 93.36078244548077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our shared task on evaluating the adaptability of LLMs and NLP systems across multiple languages and cultures. The task data consist of an extended version of our manually constructed BLEnD benchmark (Myung et al. 2024), covering more than 30 language-culture pairs, predominantly representing low-resource languages spoken across multiple continents. As the task is designed strictly for evaluation, participants were not permitted to use the data for training, fine-tuning, few-shot learning, or any other form of model modification. Our task includes two tracks: (a) Short-Answer Questions (SAQ) and (b) Multiple-Choice Questions (MCQ). Participants were required to predict labels and were allowed to submit any NLP system and adopt diverse modelling strategies, provided that the benchmark was used solely for evaluation. The task attracted more than 140 registered participants, and we received final submissions from 62 teams, along with 19 system description papers. We report the results and present an analysis of the best-performing systems and the most commonly adopted approaches. Furthermore, we discuss shared insights into open questions and challenges related to evaluation, misalignment, and methodological perspectives on model behaviour in low-resource languages and for under-represented cultures.
- Abstract(参考訳): 複数の言語や文化にまたがる LLM と NLP システムの適応性を評価するための共有タスクを提案する。
タスクデータは、手動で構築したBLEnDベンチマーク(Myung et al 2024)の拡張バージョンで構成され、30以上の言語培養ペアをカバーする。
このタスクは厳密に評価のために設計されているため、参加者はトレーニング、微調整、数発の学習、その他のモデル修正のためにデータを使用することは許されなかった。
私たちのタスクには2つのトラックが含まれます。
(a)短答質問(SAQ)と
b)Multiple-Choice Questions (MCQ)
参加者はラベルを予測し、ベンチマークが評価にのみ使用されることを条件として、いかなるNLPシステムも提出し、様々なモデリング戦略を採用することを許された。
このタスクには140人以上の登録参加者が参加し、62チームから19のシステム記述書類とともに最終提出を受けました。
その結果を報告し、最も優れたシステムと最も広く採用されているアプローチについて分析する。
さらに、低リソース言語および低表現文化におけるモデル行動に対する評価、不適応、方法論的視点に関するオープンな質問と課題に関する共通の洞察について議論する。
関連論文リスト
- EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams [0.8399688944263844]
EuraGovExamは、ユーラシアの5つの地域における実際の公務員試験から得られたベンチマークである。
データセットには17の学術および行政領域をカバーする、8,000以上の高解像度スキャンされた多重選択質問が含まれている。
また、e-governance、パブリックセクター文書分析、公平な試験準備における実践的な応用もサポートする。
論文 参考訳(メタデータ) (2026-03-28T10:29:51Z) - Challenging the Abilities of Large Language Models in Italian: a Community Initiative [63.94242079171895]
The Abilities of LAnguage Models in ITAlian (CALAMITA)は、イタリアにおける大規模共同ベンチマークイニシアチブである。
学術、産業、公共部門から80人以上のコントリビュータを集め、多様なタスクの設計、文書化、評価を行っている。
我々は,4つのオープンウェイトLDMの結果を報告し,能力の体系的強度と弱点を強調した。
論文 参考訳(メタデータ) (2025-12-04T12:50:29Z) - CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text [3.9845507207125967]
本稿では,大言語モデル (LLM) を用いた多言語主観性検出の競争的アプローチを提案する。
LLMは、慎重に設計されたプロンプトと組み合わせることで、微調整されたより小さな言語モデル(SLM)に適合または優れることを示す。
このシステムは,2025年の主観性検出タスクにおいて,複数の言語で上位にランクインした。
論文 参考訳(メタデータ) (2025-07-10T08:35:05Z) - SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval [1.2629889435114405]
本稿では,5つの言語における質問応答 (QA) と名前付きエンティティ認識 (NER) の問題について検討する。
ゼロショット,チェーンオブ思考推論,翻訳技術など,さまざまなプロンプト手法を用いた5つの大規模言語モデルを検証した。
その結果、いくつかのモデルが他のモデルより一貫して優れているが、その効果はタスクや言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-10-28T20:15:45Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond [87.4049283495551]
2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
論文 参考訳(メタデータ) (2023-10-09T08:30:01Z) - Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual
and Multilingual Approaches for Detecting Online News Genre, Framing and
Persuasion Techniques [0.030458514384586396]
本稿では,SemEval2023タスク3におけるチームQUSTの参加について述べる。
モノリンガルモデルは、まず多数クラスのアンダーサンプリングを用いて評価される。
事前学習された多言語モデルは、クラス重みとサンプル重みの組み合わせで微調整される。
論文 参考訳(メタデータ) (2023-04-09T08:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。