論文の概要: Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering
- arxiv url: http://arxiv.org/abs/2505.12189v1
- Date: Sun, 18 May 2025 01:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.082649
- Title: Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering
- Title(参考訳): 微粒化活性化ステアリングによる言語モデルの推論における内容効果の緩和
- Authors: Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば内容の妥当性を論理的妥当性と混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、あるいはその逆であると見なされる。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
- 参考スコア(独自算出の注目度): 14.298418197820912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) frequently demonstrate reasoning limitations, often conflating content plausibility (i.e., material inference) with logical validity (i.e., formal inference). This can result in biased inferences, where plausible arguments are incorrectly deemed logically valid or vice versa. Mitigating this limitation is critical, as it undermines the trustworthiness and generalizability of LLMs in applications that demand rigorous logical consistency. This paper investigates the problem of mitigating content biases on formal reasoning through activation steering. Specifically, we curate a controlled syllogistic reasoning dataset to disentangle formal validity from content plausibility. After localising the layers responsible for formal and material inference, we investigate contrastive activation steering methods for test-time interventions. An extensive empirical analysis on different LLMs reveals that contrastive steering consistently supports linear control over content biases. However, we observe that a static approach is insufficient for improving all the tested models. We then leverage the possibility to control content effects by dynamically determining the value of the steering parameters via fine-grained conditional methods. We found that conditional steering is effective on unresponsive models, achieving up to 15% absolute improvement in formal reasoning accuracy with a newly introduced kNN-based method (K-CAST). Finally, additional experiments reveal that steering for content effects is robust to prompt variations, incurs minimal side effects on language modeling capabilities, and can partially generalize to out-of-distribution reasoning tasks. Practically, this paper demonstrates that activation-level interventions can offer a scalable strategy for enhancing the robustness of LLMs, contributing towards more systematic and unbiased formal reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば論理的妥当性(公式推論)と内容の妥当性(材料推論)を混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、逆かのどちらかと誤認される。
この制限を緩和することは、厳密な論理的整合性を必要とするアプリケーションにおけるLLMの信頼性と一般化性を損なうため、非常に重要である。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
具体的には、制御されたシロメトリクス推論データセットをキュレートし、内容の妥当性から形式的妥当性を乱す。
定式的および物質的推論に責任のあるレイヤをローカライズした後、テスト時間介入のための対照的なアクティベーションステアリング手法について検討する。
異なるLCMに対する広範な経験的分析により、コントラスト的ステアリングはコンテンツバイアスに対する線形制御を一貫してサポートしていることが明らかとなった。
しかし、全てのテストモデルを改善するには静的アプローチが不十分である。
次に, ステアリングパラメータの値を微粒な条件付き手法で動的に決定することで, コンテンツ効果を制御できる可能性を活用する。
条件付きステアリングは非応答モデルにおいて有効であり,新しいkNN法(K-CAST)を用いて,形式的推論精度を最大15%向上させることができた。
最後に、コンテンツエフェクトのステアリングは、変化を促すために堅牢であり、言語モデリング能力に最小限の副作用をもたらし、配布外推論タスクに部分的に一般化できることを示した。
本稿では, LLMのロバスト性を高めるための拡張戦略として, アクティベーションレベルの介入が有効であることを示し, より体系的で偏りのない形式的推論に寄与することを示す。
関連論文リスト
- Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,大言語モデルにおいて,ノイズの多い例で融合したデータからルールを推論する能力を評価するタスクであるRobust Rule Injectionを紹介する。
また,SRR(Sample-steered Rule Refinement)を提案する。
本研究は, LLMの推論に挑戦し, 仮説のドリフトやパターンオーバーフィッティングへの感受性を明らかにし, 人為的誘導システム開発に不可欠な実証的証拠を提供した。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。
実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-10T17:04:39Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。