論文の概要: Large Language Models Can Learn Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2401.06853v1
- Date: Fri, 12 Jan 2024 19:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:10:56.637145
- Title: Large Language Models Can Learn Temporal Reasoning
- Title(参考訳): 大きな言語モデルは時間的推論を学べる
- Authors: Siheng Xiong, Ali Payani, Ramana Kompella, Faramarz Fekri
- Abstract要約: 本研究では,テキストに基づく時間的推論のための新しいパラダイムであるTempGraph-LLMを提案する。
このタスクの事前トレーニングのために、合成データセットを構築する。
思考の連鎖(CoTs)のブートストラップと特別なデータ拡張の戦略を用いて,LLMの象徴的推論を行うよう指導する。
- 参考スコア(独自算出の注目度): 12.671697405714076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) learn temporal concepts from the co-occurrence
of related tokens in a sequence. Compared with conventional text generation,
temporal reasoning, which reaches a conclusion based on mathematical, logical
and commonsense knowledge, is more challenging. In this paper, we propose
TempGraph-LLM, a new paradigm towards text-based temporal reasoning. To be
specific, we first teach LLMs to translate the context into a temporal graph. A
synthetic dataset, which is fully controllable and requires minimal
supervision, is constructed for pre-training on this task. We prove in
experiments that LLMs benefit from the pre-training on other tasks. On top of
that, we guide LLMs to perform symbolic reasoning with the strategies of Chain
of Thoughts (CoTs) bootstrapping and special data augmentation. We observe that
CoTs with symbolic reasoning bring more consistent and reliable results than
those using free text.
- Abstract(参考訳): 大規模言語モデル(LLM)は、関連するトークンの同時発生から時系列の概念を学ぶ。
従来のテキスト生成と比較して、数学的、論理的、常識的な知識に基づいて結論に達する時間的推論はより困難である。
本稿では,テキストに基づく時間的推論の新しいパラダイムであるTempGraph-LLMを提案する。
具体的には、まずLLMにコンテキストを時間グラフに変換するように教える。
完全に制御可能で、最小限の監視を必要とする合成データセットは、このタスクの事前トレーニングのために構築されている。
実験では、LLMが他のタスクの事前学習の恩恵を受けることを示す。
それに加えて、我々は、思考の連鎖(CoT)のブートストラップと特別なデータ拡張の戦略を用いて、LLMの象徴的推論を行うよう誘導する。
記号的推論を持つCoTは、自由テキストよりも一貫性があり、信頼性の高い結果をもたらす。
関連論文リスト
- AS-ES Learning: Towards Efficient CoT Learning in Small Models [35.225382243612174]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)において重要な出現能力として機能する
本稿では,CoT内固有の情報を反復生成に活用したAS-ES学習手法を提案する。
実験により,データ拡張やモデル自体の変更を伴わずに,MWPやPET要約などのCoT集約タスクにおけるSeq2seqトレーニングを超越した手法が得られた。
論文 参考訳(メタデータ) (2024-03-04T12:13:59Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Are Large Language Models Table-based Fact-Checkers? [18.921379889551687]
表ベースのFact Verification (TFV) は、文と構造化テーブルの間の関係を抽出することを目的としている。
大規模モデルに基づく既存のTFV法は、ラベル付きデータ不足とゼロショット能力の弱さに悩まされている。
大規模言語モデル(LLM)は、強力なゼロショットとコンテキスト内学習能力を示している。
論文 参考訳(メタデータ) (2024-02-04T15:52:59Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。