論文の概要: Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems
in Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2402.18344v1
- Date: Wed, 28 Feb 2024 14:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:44:17.338797
- Title: Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems
in Commonsense Reasoning
- Title(参考訳): 質問に集中しろ!
コモンセンス推論における有害CoT問題の解釈と緩和
- Authors: Jiachun Li, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Daojian
Zeng, Kang Liu, Jun Zhao
- Abstract要約: 大規模言語モデルは高レベルのコモンセンス推論能力を示す。
CoTライクな手法は、もともとは正しい答えが間違っていた、というかなりの数に繋がる。
帰属的追跡法と因果的追跡法を用いて,モデルの内部動作機構を探索する。
- 参考スコア(独自算出の注目度): 22.896761535855376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit high-level commonsense reasoning abilities,
especially with enhancement methods like Chain-of-Thought (CoT). However, we
find these CoT-like methods lead to a considerable number of originally correct
answers turning wrong, which we define as the Toxic CoT problem. To interpret
and mitigate this problem, we first utilize attribution tracing and causal
tracing methods to probe the internal working mechanism of the LLM during CoT
reasoning. Through comparisons, we prove that the model exhibits information
loss from the question over the shallow attention layers when generating
rationales or answers. Based on the probing findings, we design a novel method
called RIDERS (Residual decodIng and sERial-position Swap), which compensates
for the information deficit in the model from both decoding and serial-position
perspectives. Through extensive experiments on multiple commonsense reasoning
benchmarks, we validate that this method not only significantly eliminates
Toxic CoT problems (decreased by 23.6%), but also effectively improves the
model's overall commonsense reasoning performance (increased by 5.5%).
- Abstract(参考訳): 大規模言語モデルは、特にChain-of-Thought (CoT)のような拡張手法で、高度なコモンセンス推論能力を示す。
しかし、これらのCoTライクな手法は、Toxic CoT問題と定義する、元の正解が誤りを犯す原因となる。
この問題を解釈し緩和するために,まず帰属的追跡法と因果的追跡法を用いて,COT推論中のLLMの内部動作機構を探索する。
比較により,本モデルが有理性や回答を生成する際に,浅い注意層上の質問から情報損失を生じさせることを示す。
探索結果に基づいて、復号とシリアルポジションの両方の観点からモデルにおける情報不足を補うRIDERS(Residual decodIng and serial-position Swap)と呼ばれる新しい手法を設計する。
複数のコモンセンス推論ベンチマークに関する広範な実験を通じて、この手法がトキシックCoT問題を著しく排除するだけでなく(23.6%)、モデル全体のコモンセンス推論性能を効果的に改善する(5.5%)。
関連論文リスト
- Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - The Causal Marginal Polytope for Bounding Treatment Effects [9.196779204457059]
グローバル因果モデルを構築することなく因果関係を同定する手法を提案する。
我々は,グローバル因果モデルを構築することなく,因果モデルの限界とデータとの整合性を強制する。
我々はこの局所的に一貫した辺縁の集合を、因果的辺縁ポリトープと呼ぶ。
論文 参考訳(メタデータ) (2022-02-28T15:08:22Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Doing Good or Doing Right? Exploring the Weakness of Commonsense Causal
Reasoning Models [0.38073142980733]
意味的類似性バイアスの問題を調査し、特定の攻撃による現在のCOPAモデルの脆弱性を明らかにする。
正規化損失を加えるだけでこの問題を緩和し、実験結果から、この解がモデルの一般化能力を向上させることを示す。
論文 参考訳(メタデータ) (2021-07-05T05:08:30Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - Towards Out-of-Distribution Detection with Divergence Guarantee in Deep
Generative Models [22.697643259435115]
深層生成モデルは、分布外データ(OOD)に対して、分布内データ(ID)よりも高い確率を割り当てることができる。
フローベースモデルにおける散逸を解析するための定理を証明している。
本稿では,2つのグループ異常検出手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T09:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。