論文の概要: Culturally Grounded Physical Commonsense Reasoning in Italian and English: A Submission to the MRL 2025 Shared Task
- arxiv url: http://arxiv.org/abs/2510.22631v1
- Date: Sun, 26 Oct 2025 11:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.308604
- Title: Culturally Grounded Physical Commonsense Reasoning in Italian and English: A Submission to the MRL 2025 Shared Task
- Title(参考訳): イタリア語と英語における文化的根拠を持つ物理コモンセンス推論:MRL 2025共有課題への提出
- Authors: Marco De Santis, Lisa Alazraki,
- Abstract要約: FormaMentisは、イタリア語と文化に根ざした、物理的な常識推論のための新しいベンチマークである。
FormaMentisのデータサンプルは、イタリアのネイティブスピーカーであり、地元の習慣や規範に精通しているエキスパートアノテータによって作成されます。
サンプルはイタリア語の文脈に特有の文化的要素を保存しながら、英語に翻訳される。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our submission to the MRL 2025 Shared Task on Multilingual Physical Reasoning Datasets. The objective of the shared task is to create manually-annotated evaluation data in the physical commonsense reasoning domain, for languages other than English, following a format similar to PIQA. Our contribution, FormaMentis, is a novel benchmark for physical commonsense reasoning that is grounded in Italian language and culture. The data samples in FormaMentis are created by expert annotators who are native Italian speakers and are familiar with local customs and norms. The samples are additionally translated into English, while preserving the cultural elements unique to the Italian context.
- Abstract(参考訳): 本稿では,多言語物理推論データセットにおけるMRL 2025共有タスクについて述べる。
共有タスクの目的は、PIQAに似た形式に従って、英語以外の言語に対して、物理コモンセンス推論領域で手動でアノテートされた評価データを作成することである。
私たちの貢献であるFormaMentisは、イタリアの言語と文化に根ざした、物理的な常識推論のための新しいベンチマークです。
FormaMentisのデータサンプルは、イタリアのネイティブスピーカーであり、地元の習慣や規範に精通しているエキスパートアノテータによって作成されます。
サンプルはイタリア語の文脈に特有の文化的要素を保存しながら、英語に翻訳される。
関連論文リスト
- A Culturally-Rich Romanian NLP Dataset from "Who Wants to Be a Millionaire?" Videos [44.99833362998488]
大きな言語モデル(LLM)は、言語や文化の文脈で様々なパフォーマンスを示す。
本研究は,ルーマニアのゲームショー "Who Wants to Be a Millionaire?
論文 参考訳(メタデータ) (2025-06-06T11:21:38Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Sentiment recognition of Italian elderly through domain adaptation on
cross-corpus speech dataset [77.99182201815763]
本研究の目的は、イタリアの高齢者の自然な会話において、肯定的、中立的、否定的な感情を認識することができる音声感情認識(SER)モデルを定義することである。
論文 参考訳(メタデータ) (2022-11-14T12:39:41Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。