論文の概要: Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral
Reasoning
- arxiv url: http://arxiv.org/abs/2306.14308v1
- Date: Sun, 25 Jun 2023 18:40:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:46:53.048404
- Title: Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral
Reasoning
- Title(参考訳): 思考実験をしよう:反事実を使って道徳的推論を改善する
- Authors: Xiao Ma, Swaroop Mishra, Ahmad Beirami, Alex Beutel, Jilin Chen
- Abstract要約: 我々は、道徳的推論を改善するために言語モデルを教える新しいプロンプトフレームワーク、Thought Experimentsを提案する。
実験結果から,本フレームワークはモデルから反現実的な質問や回答を導き出すことを示した。
人間の監督を最小限に抑えることで、タスクの精度を最大80%向上させることができる。
- 参考スコア(独自算出の注目度): 25.942849895214565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models still struggle on moral reasoning, despite their impressive
performance in many other tasks. In particular, the Moral Scenarios task in
MMLU (Multi-task Language Understanding) is among the worst performing tasks
for many language models, including GPT-3. In this work, we propose a new
prompting framework, Thought Experiments, to teach language models to do better
moral reasoning using counterfactuals. Experiment results show that our
framework elicits counterfactual questions and answers from the model, which in
turn helps improve the accuracy on Moral Scenarios task by 9-16% compared to
other zero-shot baselines. Interestingly, unlike math reasoning tasks,
zero-shot Chain-of-Thought (CoT) reasoning doesn't work out of the box, and
even reduces accuracy by around 4% compared to direct zero-shot. We further
observed that with minimal human supervision in the form of 5 few-shot
examples, the accuracy of the task can be improved to as much as 80%.
- Abstract(参考訳): 言語モデルは、他の多くのタスクにおける印象的なパフォーマンスにもかかわらず、道徳的推論に苦しむ。
特に、MMLU(Multi-task Language Understanding)におけるMoral Scenariosタスクは、GPT-3を含む多くの言語モデルで最悪の実行タスクである。
本研究では,言語モデルに反事実を用いたより優れた道徳的推論を教えるための,新たなプロンプトフレームワークである思考実験を提案する。
実験の結果,本フレームワークはモデルからの反事実的質問と回答を導出し,他のゼロショットベースラインと比較して,モラルシナリオタスクの精度を9~16%向上させる。
興味深いのは、数学の推論タスクとは異なり、ゼロショットのチェーン・オブ・ソート(CoT)推論は最初から動作せず、直接のゼロショットに比べて精度を約4%削減することです。
さらに,人間による管理を最小限に抑えることで,作業の精度を80%まで向上できることを確認した。
関連論文リスト
- SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models [8.370453544530914]
大規模言語モデル(LLM)は、様々な領域で優れたパフォーマンスを示すが、算術的推論タスクに苦戦している。
近年の研究では,推理能力向上における迅速な設計手法の有効性が示されている。
本稿では,教師が指導する指導過程をエミュレートした,新しい効果的な指導インスパイアされた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:36Z) - BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense [0.04096453902709291]
本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。
データセットには、モデルに「ボックスの外」を考えるよう挑戦する、複数選択の質問が含まれている。
提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。
論文 参考訳(メタデータ) (2024-06-07T14:01:56Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。