論文の概要: Unlocking Temporal Question Answering for Large Language Models Using
Code Execution
- arxiv url: http://arxiv.org/abs/2305.15014v1
- Date: Wed, 24 May 2023 10:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:57:51.278557
- Title: Unlocking Temporal Question Answering for Large Language Models Using
Code Execution
- Title(参考訳): コード実行を用いた大規模言語モデルの時間解答解
- Authors: Xingxuan Li, Liying Cheng, Qingyu Tan, Hwee Tou Ng, Shafiq Joty,
Lidong Bing
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
本稿では,LLMの抽出能力とPythonソルバの論理的推論能力を組み合わせた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.945784849917004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant progress in natural
language processing (NLP), and are utilized extensively in various
applications. Recent works, such as chain-of-thought (CoT), have shown that
intermediate reasoning steps can improve the performance of LLMs for complex
reasoning tasks, such as math problems and symbolic question-answering tasks.
However, we notice the challenge that LLMs face when it comes to temporal
reasoning. Our preliminary experiments show that generating intermediate
reasoning steps does not always boost the performance of complex temporal
question-answering tasks. Therefore, we propose a novel framework that combines
the extraction capability of LLMs and the logical reasoning capability of a
Python solver to tackle this issue. Extensive experiments and analysis
demonstrate the effectiveness of our framework in handling intricate time-bound
reasoning tasks.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理 (NLP) において大きく進歩しており、様々な用途で広く利用されている。
chain-of-thought (cot) のような最近の研究は、中間的推論ステップが数学問題や記号的質問応答タスクのような複雑な推論タスクに対するllmの性能を向上させることを示した。
しかし、時間的推論に関してはLLMが直面する課題に気づく。
予備実験の結果, 中間的推論ステップの生成は, 複雑な時間的質問応答タスクの性能を必ずしも高めるものではないことがわかった。
そこで,本稿では,llmの抽出能力とpythonソルバの論理的推論能力を組み合わせた新しいフレームワークを提案する。
複雑な時間的推論タスクの処理におけるフレームワークの有効性を示す実験と分析を行った。
関連論文リスト
- Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - Towards Robust Temporal Reasoning of Large Language Models via a
Multi-Hop QA Dataset and Pseudo-Instruction Tuning [82.62140347732284]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Active Prompting with Chain-of-Thought for Large Language Models [16.9127713032405]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。