Fugu-MT 論文翻訳(概要): Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits LLMs' Deficiencies in Reasoning

論文の概要: Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits LLMs' Deficiencies in Reasoning

arxiv url: http://arxiv.org/abs/2305.13160v1
Date: Mon, 22 May 2023 15:47:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 14:47:02.551939
Title: Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits LLMs' Deficiencies in Reasoning
Title（参考訳）: ChatGPTは真実を守ることができるか? LLMの推論における欠陥を緩和する自動辞書評価
Authors: Boshi Wang, Xiang Yue, Huan Sun
Abstract要約: 本稿では,ChatGPTのような大規模言語モデル(LLM)の推論能力について,議論のような会話を通じて検証する。当初、正しいステップバイステップのソリューションを生成できたとしても、ChatGPTはその真理に対する信念を維持できないことが分かりました。
参考スコア（独自算出の注目度）: 30.773160470446616
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We explore testing the reasoning ability of large language models (LLMs), such as ChatGPT, by engaging with them in a debate-like conversation that probes deeper into their understanding of the subject. Specifically, we formulate a new task where given a question, the LLM can generate a correct solution while the user believes in a wrong solution in the beginning, and they need to discuss to make the correct decision through dialogue. Such a setting requires the LLM to not only achieve the correct answer on its own (which could be done by shallow memorization), but also be able to defend the truth instead of blindly believing or getting misled by the user's (invalid) arguments and critiques, thus testing in greater depth whether the LLM grasps the essence of the reasoning required to solve the problem. To automate this evaluation framework and save human labor, we simulate the user using another LLM conditioned on a synthesized wrong solution. Across a range of complex reasoning benchmarks spanning math, commonsense, logic and tasks from BIG-Bench, we find that despite being able to generate correct step-by-step solutions in the beginning, ChatGPT cannot maintain its belief in truth for a significant portion of examples when challenged by often-time absurdly invalid arguments. Our work reveals LLMs' weaknesses not captured by conventional benchmarking, and also points to danger zones of aligning models with human feedback.
Abstract（参考訳）: chatgptのような大規模言語モデル(llm)の推論能力をテストするために、議論のような会話に参加し、その主題に対する理解をより深く探究する。具体的には,質問に対してLLMが正しい解を生成できる新たなタスクを定式化し,ユーザが最初に間違った解を信じている場合,対話を通じて正しい判断を下すために議論する必要がある。このような設定では、LSMは自分自身で正しい答えを達成するだけでなく(浅い暗記によって達成できる)、ユーザーの(無意味な)議論や批判を盲目的に信じたり誤解させたりするのではなく、真実を守ることができるため、LCMが問題解決に必要な理由の本質を把握しているかどうかをより深くテストする必要がある。この評価フレームワークを自動化し,人的労力を節約するために,合成間違った解に条件付けされた別のLCMを用いてユーザをシミュレートする。数学、コモンセンス、論理、およびBIG-Benchのタスクにまたがる様々な複雑な推論ベンチマークにおいて、初期の段階では正しいステップバイステップのソリューションを生成できたにもかかわらず、ChatGPTは、しばしば不当に無効な議論に挑戦した場合、その真理に対する信念を維持できない。本研究は、従来のベンチマークでは捉えられていないllmsの弱点を明らかにし、モデルと人間のフィードバックを整合させる危険ゾーンも指摘している。

関連論文リスト

Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs [28.556628696390767]
大きな言語モデル(LLM)は印象的な推論機能を示している。彼らの成功の多くは、真の推論よりも、暗記された回答推論パターンに起因している、とエビデンスは示唆している。本稿では, 応答キューを体系的に操作し, 間接的, 行動解析によるモデル行動の探索を行う5段階の応答可視プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-21T08:15:45Z)
Empowering LLMs with Logical Reasoning: A Comprehensive Survey [49.91445266392609]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な成功を収めた。近年の研究では、LLMの論理的推論能力にはまだ大きな課題があることがわかった。本稿では,主な課題を2つの側面にまとめ,分類する。
論文参考訳（メタデータ） (2025-02-21T18:20:35Z)
No Need for Explanations: LLMs can implicitly learn from mistakes in-context [14.508050809497847]
我々は,大規模な言語モデルが誤りからより効果的に学習する理由を,明確な正当性を持たずに研究する。我々は、誤答がLLM学習にとってより有益である一方で、モデルに過度に拘束された明確な補正的合理性を示す証拠を見出した。
論文参考訳（メタデータ） (2025-02-12T16:31:21Z)
Logical Consistency of Large Language Models in Fact-checking [6.286017217366497]
大規模言語モデル(LLM)は、様々な自然言語タスクを実行する上で大きな成功を収めている。人間のようなテキストを生成する素晴らしい能力にもかかわらず、LLMは一貫性のない反応で悪名高い。
論文参考訳（メタデータ） (2024-12-20T17:42:25Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。 1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文参考訳（メタデータ） (2024-10-30T15:31:54Z)
LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文参考訳（メタデータ） (2024-10-18T04:17:16Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。 LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文参考訳（メタデータ） (2024-08-09T14:34:32Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文参考訳（メタデータ） (2024-04-04T08:38:03Z)
Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。 LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文参考訳（メタデータ） (2024-03-14T04:06:13Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。