論文の概要: Question Answering as Programming for Solving Time-Sensitive Questions
- arxiv url: http://arxiv.org/abs/2305.14221v2
- Date: Wed, 18 Oct 2023 12:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:22:26.919589
- Title: Question Answering as Programming for Solving Time-Sensitive Questions
- Title(参考訳): 時間に敏感な質問を解くためのプログラミングとしての質問答え
- Authors: Xinyu Zhu, Cheng Yang, Bei Chen, Siheng Li, Jian-Guang Lou, Yujiu Yang
- Abstract要約: 質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を担っている。
近年,Large Language Models (LLMs) は疑問に答える上で顕著な知性を示している。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
我々は、$textbfQ$uestion $textbfA$rogrogeringタスクを再設定する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 84.07553016489769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering plays a pivotal role in human daily life because it
involves our acquisition of knowledge about the world. However, due to the
dynamic and ever-changing nature of real-world facts, the answer can be
completely different when the time constraint in the question changes.
Recently, Large Language Models (LLMs) have shown remarkable intelligence in
question answering, while our experiments reveal that the aforementioned
problems still pose a significant challenge to existing LLMs. This can be
attributed to the LLMs' inability to perform rigorous reasoning based on
surface-level text semantics. To overcome this limitation, rather than
requiring LLMs to directly answer the question, we propose a novel approach
where we reframe the $\textbf{Q}$uestion $\textbf{A}$nswering task
$\textbf{a}$s $\textbf{P}$rogramming ($\textbf{QAaP}$). Concretely, by
leveraging modern LLMs' superior capability in understanding both natural
language and programming language, we endeavor to harness LLMs to represent
diversely expressed text as well-structured code and select the best matching
answer from multiple candidates through programming. We evaluate our QAaP
framework on several time-sensitive question answering datasets and achieve
decent improvement, up to $14.5$% over strong baselines. Our codes and data are
available at https://github.com/TianHongZXY/qaap
- Abstract(参考訳): 質問応答は、世界に関する知識の獲得に関わるため、人間の日常生活において重要な役割を果たす。
しかし、実世界の事実の動的かつ絶え間なく変化する性質から、問題の時間的制約が変化すると答えは完全に異なる場合がある。
近年,Large Language Models (LLM) は疑問に答える上で顕著な知性を示したが,実験の結果,既存のLLMにはまだ大きな課題があることがわかった。
これはLLMが表面レベルのテキストセマンティクスに基づいて厳密な推論を行うことができないためである。
この制限を克服するために, LLM に直接答えるのではなく, $\textbf{Q}$uestion $\textbf{A}$nswering Task $\textbf{a}$s $\textbf{P}$rogramming $\textbf{QAaP}$を再構成する新しいアプローチを提案する。
具体的には、自然言語とプログラミング言語の両方を理解する上で、現代のLLMの優れた能力を生かして、多様に表現されたテキストとよく構造化されたコードを表現するためにLLMを活用し、プログラミングを通して複数の候補から最適な解を選択する。
当社のQAaPフレームワークを、いくつかの時間に敏感な質問応答データセットで評価し、強力なベースラインに対して最大14.5$%の改善を実現しました。
私たちのコードとデータはhttps://github.com/tianhongzxy/qaapで入手できます。
関連論文リスト
- FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。
我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文 参考訳(メタデータ) (2024-04-20T10:41:02Z) - Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning [31.972053219549757]
TREACLEは、ユーザの金銭的コストとレイテンシの制約を尊重しながら、モデルとプロンプトスキームを共同で選択する強化学習ポリシーである。
評価の結果,TREACLEはベースラインに比べて最大85%のコスト削減が可能であり,精度は高いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T05:56:49Z) - Turbulence: Systematically and Automatically Testing Instruction-Tuned
Large Language Models for Code [12.58098809948832]
本稿では,新しいベンチマークである乱流を用いて,命令調整型大規模言語モデル(LLM)のコード生成における正確性と堅牢性を評価する手法を提案する。
乱流は、多数の自然言語の$textitquestion templates$から成り、それぞれがプログラミングの問題であり、様々な形式で問うことができるようにパラメータ化されている。
単一の質問テンプレートから、LLM に $textitneighbourhood$ と非常によく似たプログラミング質問を問うことができ、各質問に対して返された結果の正しさを評価することができる。
論文 参考訳(メタデータ) (2023-12-22T17:29:08Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。