論文の概要: Simple Mechanistic Explanations for Out-Of-Context Reasoning
- arxiv url: http://arxiv.org/abs/2507.08218v2
- Date: Wed, 16 Jul 2025 16:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 12:30:11.746586
- Title: Simple Mechanistic Explanations for Out-Of-Context Reasoning
- Title(参考訳): 外部文脈推論のための簡易機械的説明法
- Authors: Atticus Wang, Joshua Engels, Oliver Clive-Griffin, Senthooran Rajamanoharan, Neel Nanda,
- Abstract要約: OOCR(Out-of-context reasoning)は、微調整LDMが深い分布の一般化を示す現象である。
LoRAファインチューニングは基本的に一定のステアリングベクトルを追加し、一般的な概念に向けてモデルをステアリングする。
- 参考スコア(独自算出の注目度): 2.133516231429451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Out-of-context reasoning (OOCR) is a phenomenon in which fine-tuned LLMs exhibit surprisingly deep out-of-distribution generalization. Rather than learning shallow heuristics, they implicitly internalize and act on the consequences of observations scattered throughout the fine-tuning data. In this work, we investigate this phenomenon mechanistically and find that many instances of OOCR in the literature have a simple explanation: the LoRA fine-tuning essentially adds a constant steering vector, steering the model towards a general concept. This improves performance on the fine-tuning task and in many other concept-related domains, causing the surprising generalization. Moreover, we can directly train steering vectors for these tasks from scratch, which also induces OOCR. We find that our results hold even for a task that seems like it must involve conditional behavior (model backdoors); it turns out that unconditionally adding a steering vector is sufficient. Overall, our work presents one explanation of what gets learned during fine-tuning for OOCR tasks, contributing to the key question of why LLMs can reason out of context, an advanced capability that is highly relevant to their safe and reliable deployment.
- Abstract(参考訳): OOCR(Out-of-context reasoning)は、微調整LDMが驚くほど深い分布の一般化を示す現象である。
浅いヒューリスティックスを学ぶのではなく、暗黙的に内部化し、微調整データ全体に散らばる観察の結果に作用する。
本研究は, この現象を機械的に検討し, 文献におけるOOCRの多くの事例に簡単な説明があることを確認した。
これにより、微調整タスクや他の多くの概念関連ドメインのパフォーマンスが向上し、驚くべき一般化がもたらされる。
さらに、これらのタスクのステアリングベクトルをスクラッチから直接訓練し、OOCRを誘導する。
結果が条件付き動作(モデルバックドア)を伴わなければならないようなタスクに対しても成り立つことが分かり、無条件にステアリングベクトルを追加するだけで十分であることが分かりました。
全体として、我々の研究はOOCRタスクの微調整中に何が学べるかという説明をし、なぜLLMがコンテキストから推論できるのかという重要な疑問に繋がる。
関連論文リスト
- Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations [19.539276425108987]
この研究は線形結合導出法を提案し、タスクベクトルは元のベクトルの線形結合によって形成された単一のコンテキスト内実証として機能することを示した。
本研究では,三重項型プロンプトを訓練した線形変圧器において,タスクベクトルが自然に現れることを示す。
本研究では,高階マッピングにおけるタスクベクトルの故障を予測し,実用的なLCM上で確認する。
論文 参考訳(メタデータ) (2025-06-10T17:59:31Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Task-Specific Directions: Definition, Exploration, and Utilization in Parameter Efficient Fine-Tuning [65.31677646659895]
大規模な言語モデルは、下流タスクで素晴らしいパフォーマンスを示すが、全てのパラメータを完全に微調整する場合は、リソース消費がかなり必要である。
本稿では,タスク固有の方向(TSD)を明確に定義するフレームワークを提案し,その特性と実用化の課題について検討する。
次に、微調整過程におけるTLDの影響を最大化する新しいアプローチであるLoRA-Dashを導入する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - RouteExplainer: An Explanation Framework for Vehicle Routing Problem [1.7034420812099471]
本稿では,生成経路における各エッジの影響を説明する,ポストホックな説明フレームワークであるRouteExplainerを提案する。
本フレームワークは,行動系列として経路を再考し,行動影響モデルに基づく対実的説明をVRPに拡張することでこれを実現している。
さらに、各エッジの意図を推測するエッジ分類器、エッジ分類器を訓練する損失関数、大言語モデル(LLM)による説明文生成を提案する。
論文 参考訳(メタデータ) (2024-03-06T10:01:35Z) - RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model [22.25903116720301]
説明責任は、信頼できる自律的な意思決定において重要な役割を果たす。
MLLM(Multi-Modal Large Language Model)の最近の進歩は、駆動エージェントとしての説明可能性を高める有望な可能性を示している。
提案するRAG-Driverは,高機能,説明性,一般化可能な自律運転にコンテキスト内学習を活用する,検索強化型多モード大言語モデルである。
論文 参考訳(メタデータ) (2024-02-16T16:57:18Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。