論文の概要: On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in
Zero-Shot Reasoning
- arxiv url: http://arxiv.org/abs/2212.08061v1
- Date: Thu, 15 Dec 2022 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:53:04.326737
- Title: On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in
Zero-Shot Reasoning
- Title(参考訳): 第二の考えでは、ステップバイステップで考えよう!
ゼロショット推論におけるバイアスと毒性
- Authors: Omar Shaikh, Hongxin Zhang, William Held, Michael Bernstein, Diyi Yang
- Abstract要約: プロンプトでゼロショットのCoT推論を使用することで、望ましくない出力を生成する可能性を大幅に増大させることができる。
将来的なアライメントや明示的な緩和指示がなければ、ゼロショットのCoTは、モデルが疎外されたグループや有害なトピックについて推測できるタスクでは避けるべきである。
- 参考スコア(独自算出の注目度): 41.547336426678605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating a chain of thought (CoT) can increase large language model (LLM)
performance on a wide range of tasks. Zero-shot CoT evaluations, however, have
been conducted primarily on logical tasks (e.g. arithmetic, commonsense QA). In
this paper, we perform a controlled evaluation of zero-shot CoT across two
sensitive domains: harmful questions and stereotype benchmarks. We find that
using zero-shot CoT reasoning in a prompt can significantly increase a model's
likelihood to produce undesirable output. Without future advances in alignment
or explicit mitigation instructions, zero-shot CoT should be avoided on tasks
where models can make inferences about marginalized groups or harmful topics.
- Abstract(参考訳): 思考の連鎖(CoT)を生成することで、幅広いタスクにおいて大きな言語モデル(LLM)の性能を向上させることができる。
しかし、ゼロショットのCoT評価は主に論理的タスク(例えば算術、常識QA)で行われている。
本稿では、有害な質問とステレオタイプベンチマークという2つの敏感な領域にわたるゼロショットCoTの制御評価を行う。
ゼロショットCoT推論をプロンプトで使用すると、望ましくない出力を生成する確率が大幅に増加することが判明した。
将来的なアライメントや明示的な緩和指示がなければ、ゼロショットのCoTは、モデルが疎外されたグループや有害なトピックについて推測できるタスクでは避けるべきである。
関連論文リスト
- Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of-Thought)は、大規模言語やマルチモーダルモデルを扱う上で広く使われている戦略である。
認知心理学からインスピレーションを得て,CoTが性能を低下させるタスクの特徴を同定する。
予測時間推論を用いた場合,多種多様な最先端モデル群が性能低下を示すことが判明した。
論文 参考訳(メタデータ) (2024-10-27T18:30:41Z) - Instance-adaptive Zero-shot Chain-of-Thought Prompting [32.700073951068575]
Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。
この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-30T16:00:34Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems in Commonsense Reasoning [21.951313919964484]
大規模言語モデルは高レベルのコモンセンス推論能力を示す。
CoTライクな手法は、もともとは正しい答えが間違っていた、というかなりの数に繋がる。
帰属的追跡法と因果的追跡法を用いて,モデルの内部動作機構を探索する。
論文 参考訳(メタデータ) (2024-02-28T14:09:02Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Language-Driven Anchors for Zero-Shot Adversarial Robustness [25.160195547250655]
本稿では,言語駆動型アンカー型対外訓練戦略を提案する。
テキストエンコーダのセマンティック一貫性を活用することで、LAATは画像モデルの対角的堅牢性を高めることを目指している。
LAATは、最先端手法よりもゼロショット対逆ロバスト性を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-01-30T17:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。