論文の概要: If I Could Turn Back Time: Temporal Reframing as a Historical Reasoning Task for LLMs
- arxiv url: http://arxiv.org/abs/2511.04432v1
- Date: Thu, 06 Nov 2025 15:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.465467
- Title: If I Could Turn Back Time: Temporal Reframing as a Historical Reasoning Task for LLMs
- Title(参考訳): LLMの歴史的推論タスクとしての時間的リフレーミング
- Authors: Lars Bungum, Charles Yijia Huang, Abeer Kashar,
- Abstract要約: 1940年のノルウェーの本にトリビアの質問が含まれており、私たちはLLMに1940年のように質問に答えるよう促した。
英語とノルウェー語の両方で疑問を投げかけます。
英語のプロンプティングは、予想外の結果であるノルウェー語よりも一貫して良い結果をもたらした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we experiment with the ability of LLMs to do temporal reasoning. Using a Norwegian book from 1940 containing trivia questions, we prompt the LLMs to answer the questions as if it were 1940. We also pose the questions in both English and Norwegian. Correct answers are often presented as sentences, and grading is done by means of LLM-as-judge, with sampled checks by a native speaker. Prompting in English consistently gave better results than in Norwegian, an unexpected result. In contrast, using larger LLMs improved results. We tested the DeepSeek-R1, Gemma3, Qwen3, and Llama3.1 model families, and also the largest available LLM especially crafted for Norwegian.
- Abstract(参考訳): 本研究では,LLMの時間的推論能力について実験を行った。
1940年のノルウェーの本にトリビアの質問が含まれており、私たちはLLMに1940年のように質問に答えるよう促した。
英語とノルウェー語の両方で疑問を投げかけます。
正しい答えはしばしば文として提示され、グレーディングはLLM-as-judgeによって行われ、ネイティブ話者によるサンプルチェックが行われる。
英語のプロンプティングは、予想外の結果であるノルウェー語よりも一貫して良い結果をもたらした。
対照的に、より大きなLSMを使用することで結果が改善された。
私たちはDeepSeek-R1、Gemma3、Qwen3、Llama3.1のモデルファミリーをテストしました。
関連論文リスト
- Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - Exploring the Responses of Large Language Models to Beginner
Programmers' Help Requests [1.8260333137469122]
大規模言語モデル(LLM)が、学生が助けを求める問題のあるコードの問題を特定するのにいかに優れているかを評価する。
オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。
論文 参考訳(メタデータ) (2023-06-09T07:19:43Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。