論文の概要: Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering
- arxiv url: http://arxiv.org/abs/2505.12189v1
- Date: Sun, 18 May 2025 01:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.082649
- Title: Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering
- Title(参考訳): 微粒化活性化ステアリングによる言語モデルの推論における内容効果の緩和
- Authors: Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば内容の妥当性を論理的妥当性と混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、あるいはその逆であると見なされる。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
- 参考スコア(独自算出の注目度): 14.298418197820912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) frequently demonstrate reasoning limitations, often conflating content plausibility (i.e., material inference) with logical validity (i.e., formal inference). This can result in biased inferences, where plausible arguments are incorrectly deemed logically valid or vice versa. Mitigating this limitation is critical, as it undermines the trustworthiness and generalizability of LLMs in applications that demand rigorous logical consistency. This paper investigates the problem of mitigating content biases on formal reasoning through activation steering. Specifically, we curate a controlled syllogistic reasoning dataset to disentangle formal validity from content plausibility. After localising the layers responsible for formal and material inference, we investigate contrastive activation steering methods for test-time interventions. An extensive empirical analysis on different LLMs reveals that contrastive steering consistently supports linear control over content biases. However, we observe that a static approach is insufficient for improving all the tested models. We then leverage the possibility to control content effects by dynamically determining the value of the steering parameters via fine-grained conditional methods. We found that conditional steering is effective on unresponsive models, achieving up to 15% absolute improvement in formal reasoning accuracy with a newly introduced kNN-based method (K-CAST). Finally, additional experiments reveal that steering for content effects is robust to prompt variations, incurs minimal side effects on language modeling capabilities, and can partially generalize to out-of-distribution reasoning tasks. Practically, this paper demonstrates that activation-level interventions can offer a scalable strategy for enhancing the robustness of LLMs, contributing towards more systematic and unbiased formal reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば論理的妥当性(公式推論)と内容の妥当性(材料推論)を混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、逆かのどちらかと誤認される。
この制限を緩和することは、厳密な論理的整合性を必要とするアプリケーションにおけるLLMの信頼性と一般化性を損なうため、非常に重要である。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
具体的には、制御されたシロメトリクス推論データセットをキュレートし、内容の妥当性から形式的妥当性を乱す。
定式的および物質的推論に責任のあるレイヤをローカライズした後、テスト時間介入のための対照的なアクティベーションステアリング手法について検討する。
異なるLCMに対する広範な経験的分析により、コントラスト的ステアリングはコンテンツバイアスに対する線形制御を一貫してサポートしていることが明らかとなった。
しかし、全てのテストモデルを改善するには静的アプローチが不十分である。
次に, ステアリングパラメータの値を微粒な条件付き手法で動的に決定することで, コンテンツ効果を制御できる可能性を活用する。
条件付きステアリングは非応答モデルにおいて有効であり,新しいkNN法(K-CAST)を用いて,形式的推論精度を最大15%向上させることができた。
最後に、コンテンツエフェクトのステアリングは、変化を促すために堅牢であり、言語モデリング能力に最小限の副作用をもたらし、配布外推論タスクに部分的に一般化できることを示した。
本稿では, LLMのロバスト性を高めるための拡張戦略として, アクティベーションレベルの介入が有効であることを示し, より体系的で偏りのない形式的推論に寄与することを示す。
関連論文リスト
- From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,大言語モデルにおいて,ノイズの多い例で融合したデータからルールを推論する能力を評価するタスクであるRobust Rule Injectionを紹介する。
また,SRR(Sample-steered Rule Refinement)を提案する。
本研究は, LLMの推論に挑戦し, 仮説のドリフトやパターンオーバーフィッティングへの感受性を明らかにし, 人為的誘導システム開発に不可欠な実証的証拠を提供した。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。
モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。
帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文 参考訳(メタデータ) (2024-10-12T14:12:36Z) - Sequential Representation Learning via Static-Dynamic Conditional Disentanglement [58.19137637859017]
本稿では,ビデオ中の時間非依存要因と時間変化要因を分離することに着目し,逐次的データ内での自己教師付き不整合表現学習について検討する。
本稿では,静的/動的変数間の因果関係を明示的に考慮し,それらの因子間の通常の独立性仮定を破る新しいモデルを提案する。
実験により、提案手法は、シーンのダイナミックスが内容に影響されるシナリオにおいて、従来の複雑な最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-10T17:04:39Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。