論文の概要: Can Language Models Handle a Non-Gregorian Calendar?
- arxiv url: http://arxiv.org/abs/2509.04432v1
- Date: Thu, 04 Sep 2025 17:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.244476
- Title: Can Language Models Handle a Non-Gregorian Calendar?
- Title(参考訳): 言語モデルは非グレゴリオ暦を扱えるか?
- Authors: Mutsumi Sasaki, Go Kamoda, Ryosuke Takahashi, Kosuke Sato, Kentaro Inui, Keisuke Sakaguchi, Benjamin Heinzerling,
- Abstract要約: 我々は,オープンソース言語モデルが日本語カレンダーをいかにうまく扱えるかを評価する。
カレンダー変換が可能なモデルもあるが,日本語中心のモデルでさえ,日本語のカレンダ算術に苦戦している。
本研究は,文化固有のカレンダー理解に優れたLMを開発することの重要性を強調した。
- 参考スコア(独自算出の注目度): 32.21373620078722
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Temporal reasoning and knowledge are essential capabilities for language models (LMs). While much prior work has analyzed and improved temporal reasoning in LMs, most studies have focused solely on the Gregorian calendar. However, many non-Gregorian systems, such as the Japanese, Hijri, and Hebrew calendars, are in active use and reflect culturally grounded conceptions of time. If and how well current LMs can accurately handle such non-Gregorian calendars has not been evaluated so far. Here, we present a systematic evaluation of how well open-source LMs handle one such non-Gregorian system: the Japanese calendar. For our evaluation, we create datasets for four tasks that require both temporal knowledge and temporal reasoning. Evaluating a range of English-centric and Japanese-centric LMs, we find that some models can perform calendar conversions, but even Japanese-centric models struggle with Japanese-calendar arithmetic and with maintaining consistency across calendars. Our results highlight the importance of developing LMs that are better equipped for culture-specific calendar understanding.
- Abstract(参考訳): 時間的推論と知識は言語モデル(LM)にとって不可欠な能力である。
多くの先行研究はLMの時間的推論を分析し改善してきたが、ほとんどの研究はグレゴリオ暦にのみ焦点を当てている。
しかし、日本人や非グレゴリオ暦、ヒジュリ暦、ヘブライ暦など多くの非グレゴリオ暦体系が活発に使われており、文化的に根ざした時代観を反映している。
現在のLMがこのようなグレゴリオ暦を正確に扱えるかは、まだ評価されていない。
本稿では,オープンソースのLMが非グレゴリオ暦システム(日本語カレンダー)をどのように処理するかを体系的に評価する。
評価のために、時間的知識と時間的推論の両方を必要とする4つのタスクのためのデータセットを作成します。
英語中心および日本語中心のLMを評価すると、一部のモデルはカレンダー変換を行うことができるが、日本語中心のモデルでさえ、日本語-カレンダー算術に苦慮し、カレンダー間の一貫性を維持している。
本研究は,文化固有のカレンダー理解に優れたLMを開発することの重要性を強調した。
関連論文リスト
- DATETIME: A new benchmark to measure LLM translation and reasoning capabilities [0.0]
本稿では,日時における大規模言語モデル(LLM)の翻訳と推論能力を評価するために設計された,新しい高品質なベンチマークであるDATETIMEを紹介する。
日時は直感的で、人間が処理するのは簡単ですが、LLMには大きな課題があります。
実験の結果,現状のモデルでは,日時における推論に関わる作業が困難であることが示唆された。
論文 参考訳(メタデータ) (2025-04-22T17:52:04Z) - Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs [9.34626518802604]
我々は,MLLMが時間関連視覚データを提示した場合に,視覚認識,数値推論,時間的推論をどのように行うかを分析することを目的とする。
評価の結果,近年の進歩にもかかわらず,時間的理解はMLLMにとって重要な課題であることがわかった。
論文 参考訳(メタデータ) (2025-02-07T17:11:23Z) - mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis [12.582867572800488]
大規模言語モデル(LLM)は、大規模言語モデルの急速な急速な進化の方法論を改革することを約束している。
本稿では、ベンチマークデータセットSTBenchを構築し、13の異なる計算タスクと6万以上のQAペアを含む。
実験結果から,既存のLLMは知識理解と時間差推論に顕著な性能を示した。
論文 参考訳(メタデータ) (2024-06-27T10:34:02Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。