論文の概要: Solving Situation Puzzles with Large Language Model and External Reformulation
- arxiv url: http://arxiv.org/abs/2503.18394v1
- Date: Mon, 24 Mar 2025 07:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:57.194368
- Title: Solving Situation Puzzles with Large Language Model and External Reformulation
- Title(参考訳): 大規模言語モデルによる問題解決と外的改革
- Authors: Kun Li, Xinwei Chen, Tianyou Song, Chengrui Zhou, Zhuoran Liu, Zhenyan Zhang, Jiangjian Guo, Qing Shan,
- Abstract要約: 大規模言語モデル(LLM)は複数ラウンドの対話を必要とする推論ではうまく機能しないことを示す。
本稿では,新たな外的改革手法を提案する。そこでは,何回かのQ&Aの後,状況パズルを再構成する。
実験では, LLMを状況問題の解決に用いた手法よりも優れた性能(例えば, 勝率, 質問数, ゲス試行数)を示す。
- 参考スコア(独自算出の注目度): 6.793639595476304
- License:
- Abstract: In recent years, large language models (LLMs) have shown an impressive ability to perform arithmetic and symbolic reasoning tasks. However, we found that LLMs (e.g., ChatGPT) cannot perform well on reasoning that requires multiple rounds of dialogue, especially when solving situation puzzles. Specifically, LLMs intend to ask very detailed questions focusing on a specific aspect or same/similar questions after several rounds of Q&As. To help LLMs get out of the above dilemma, we propose a novel external reformulation methodology, where the situation puzzle will be reformulated after several rounds of Q&A or when the LLMs raise an incorrect guess. Experiments show superior performance (e.g., win rate, number of question/guess attempts) of our method than directly using LLMs for solving situation puzzles, highlighting the potential of strategic problem reformulation to enhance the reasoning capabilities of LLMs in complex interactive scenarios.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は算術的および記号的推論タスクの実行能力に優れていた。
しかし, LLM(例えばChatGPT)は, 複数ラウンドの対話を必要とする推論, 特に状況問題を解く際には, うまく動作しないことがわかった。
具体的には、LLMは、いくつかのQ&Aの後、特定の側面や同一/類似の質問に焦点を当てた、非常に詳細な質問をするつもりである。
LLMが上記のジレンマから抜け出すのを助けるために、我々は、いくつかのQ&Aの後、またはLLMが誤った推測をするとき、状況パズルを再構成する新しい外部修正手法を提案する。
複雑な対話シナリオにおけるLLMの推論能力を高めるための戦略的問題修正の可能性を強調し,LLMを直接利用するよりも優れた性能(例えば,勝利率,質問/解数)を示す実験を行った。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Can LLMs plan paths with extra hints from solvers? [2.874944508343474]
大規模言語モデル(LLM)は、自然言語処理、数学的問題解決、プログラム合成に関連するタスクにおいて顕著な能力を示している。
本稿では,従来のロボット計画課題の解決において,解法生成フィードバックを統合することでLCM性能を向上させる手法について検討する。
論文 参考訳(メタデータ) (2024-10-07T14:00:08Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。
我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。
実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文 参考訳(メタデータ) (2024-06-19T18:26:19Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - FCoReBench: Can Large Language Models Solve Challenging First-Order Combinatorial Reasoning Problems? [25.352721856952655]
一階推論問題は、様々なサイズの無限個の問題インスタンスでインスタンス化することができる。
課題40のデータセットであるFCoReBenchと,さまざまなサイズの問題インスタンスを生成し,そのソリューションを自動検証して生成するスクリプトを提案する。
本稿では,LLMとシンボルソルバとプログラムインタプリタを組み合わせたSymPro-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。