Fugu-MT 論文翻訳(概要): What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

論文の概要: What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

arxiv url: http://arxiv.org/abs/2603.19017v1
Date: Thu, 19 Mar 2026 15:22:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.225533
Title: What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?
Title（参考訳）: 大規模言語モデルにおける時間的推論の真の制御 - トークン化と時間表現-
Authors: Gagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard, Wei Zhao,
Abstract要約: マルチテンプベンチ(MultiTempBench)は3つのタスク、日付演算、時間帯変換にまたがる多言語時間的推論ベンチマークである。英語の質問を750ドル(約7万5000円)で翻訳し、それぞれを日付順に調整した変種に拡張した例。人間の重度評価を校正する多言語Date Fragmentation Ratio (mDFR) を導入し, 内部時間表現の幾何学的解析を行った。
参考スコア（独自算出の注目度）: 13.913466468452983
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present MultiTempBench, a multilingual temporal reasoning benchmark spanning three tasks, date arithmetic, time zone conversion, and temporal relation extraction across five languages (English, German, Chinese, Arabic, and Hausa) and multiple calendar conventions (Gregorian, Hijri, and Chinese Lunar). MultiTempBench contains $15,000$ examples built by translating $750$ curated English questions and expanding each into controlled date-format variants. We evaluate 20 LLMs and introduce the multilingual Date Fragmentation Ratio (mDFR), calibrated with human severity ratings, together with geometric-probing analyses of internal temporal representations. We find tokenisation quality of temporal artefacts is a resource-dependent bottleneck: in low-resource languages and rarer calendar formats, fragmentation disrupts Year/Month/Day separation and accuracy collapses, while high-resource settings are often robust to digit-level splitting. Beyond tokenisation, crossed mixed-effects regression shows that temporal linearity is the strongest predictor of temporal reasoning in high-resource languages, whereas fragmentation is the stronger predictor in low-resource languages. Code is available at: https://github.com/gagan3012/mtb
Abstract（参考訳）: 日時演算,時間帯変換,時間的関係抽出を5言語(英語,ドイツ語,中国語,アラビア語,ハウサ)と複数のカレンダー規則(グレゴリオ語,ヒジュリ語,中国語ルナー語)にまたがる多言語時間的推論ベンチマークであるMultiTempBenchを提案する。 MultiTempBenchは、750ドルの英語の質問を翻訳し、それぞれがコントロールされた日付形式に拡張することで、1万5000ドルのサンプルを提供している。我々は20個のLDMを評価し,ヒトの重度評価を校正するマルチリンガルDate Fragmentation Ratio (mDFR)を導入し,内部時間表現の幾何学的解析を行った。低リソース言語や希少なカレンダーフォーマットでは、断片化は年/月/日の分離と精度の崩壊を妨げます。トークン化以外にも、クロスミックスエフェクトレグレッションは、時間的線形性が高リソース言語における時間的推論の最も強い予測因子であることを示している。コードは、https://github.com/gagan3012/mtbで入手できる。

関連論文リスト

The Limits of Data Scaling: Sub-token Utilization and Acoustic Saturation in Multilingual ASR [6.627057618324123]
49言語にわたる推論においてWhisperの復号動作を分析する。モデルのサブトークン空間の利用パターンについて検討する。
論文参考訳（メタデータ） (2025-10-26T02:13:26Z)
Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning [15.199462580168861]
我々は,トークン化器が複数桁の日付成分をいかに忠実に保存するかを測定する,単純な解釈可能な日付フラグメンテーション比を導入する。 DateAugBenchは3つの時間的推論タスクにまたがった6500の例のスイートです。実験の結果, 過度な断片化は, 異常な日付で最大10ポイントの精度低下と相関していることがわかった。
論文参考訳（メタデータ） (2025-05-22T00:06:29Z)
Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文参考訳（メタデータ） (2024-02-18T11:46:16Z)
Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文参考訳（メタデータ） (2023-06-19T07:00:14Z)
MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition [56.408324994409405]
多重ルーティングネットワーク(MRN)は、現在見られる言語ごとに認識器を訓練する。 MRNは、古いデータへの依存を効果的に減らし、破滅的な忘れ物との戦いを改善する。既存の汎用IL法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2023-05-24T06:03:34Z)
GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。 GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文参考訳（メタデータ） (2020-10-06T20:30:35Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。