論文の概要: It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning
- arxiv url: http://arxiv.org/abs/2311.07532v3
- Date: Fri, 7 Jun 2024 23:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:38:15.275043
- Title: It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning
- Title(参考訳): 誤りを犯すのは簡単ではない - 大規模な言語モデルがリ推論のプロセスと格闘する
- Authors: Nishant Balepur, Shramay Palta, Rachel Rudinger,
- Abstract要約: 思考の連鎖(COT)は、大きな言語モデル(LLM)が正しい答えを推論するのに役立つが、誤った答えを推論する効果は未解明である。
我々はCOTを用いたPoEを提案するが、ここではLLMは複数の質問に対して誤った選択をしなくてはならない。
PoEの戦略は常に正しい回答を選択する戦略を過小評価している。
- 参考スコア(独自算出の注目度): 16.626335975696243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This process of elimination (PoE), when used with COT, can enhance self-consistency, interpretability, and tasks such as medical diagnoses of exclusion. Thus, we propose PoE with COT, where LLMs must reason toward incorrect options on multiple-choice questions. We evaluate the ability of GPT-3.5, LLaMA-2, and Falcon to perform PoE with COT on a total of four commonsense and scientific reasoning datasets. We find that the strategy of PoE always underperforms the strategy of choosing the correct answer. The agreement of these strategies is also lower than the self-consistency of each strategy. To study these issues further, we conduct error analyses and give suggestions for future work.
- Abstract(参考訳): 思考の連鎖(COT)は、大きな言語モデル(LLM)が正しい答えを推論するのに役立つが、誤った答えを推論する効果は未解明である。
このCOTを用いた除去(PoE)プロセスは、自己整合性、解釈可能性、および排除の医学的診断のようなタスクを高めることができる。
そこで我々は,COTを用いたPoEを提案する。
GPT-3.5, LLaMA-2, FalconのCOTによるPoE処理能力の評価を行った。
PoEの戦略は常に正しい回答を選択する戦略を過小評価している。
これらの戦略の合意は、それぞれの戦略の自己整合性よりも低い。
これらの問題をさらに研究するため,我々は誤り解析を行い,今後の課題について提案する。
関連論文リスト
- Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - POE: Process of Elimination for Multiple Choice Reasoning [19.65826015840337]
同様の2段階戦略は、複数の選択推論タスクにおいて、LMをより良くする可能性がある、と我々は主張する。
最初のステップでは、POEはそれぞれのオプションをスコアし、一見間違ったオプションを排除します。
2番目のステップでは、POEはこれらの間違ったオプションを隠蔽し、残りのオプションから最終的な予測を行う。
論文 参考訳(メタデータ) (2023-10-24T07:38:43Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.89346248535922]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。