論文の概要: Quantifying Logical Consistency in Transformers via Query-Key Alignment
- arxiv url: http://arxiv.org/abs/2502.17017v1
- Date: Mon, 24 Feb 2025 10:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:51.447571
- Title: Quantifying Logical Consistency in Transformers via Query-Key Alignment
- Title(参考訳): クエリキーアライメントによる変圧器の論理的一貫性の定量化
- Authors: Eduard Tulchinskii, Anastasia Voznyuk, Laida Kushnareva, Andrei Andriiainen, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov,
- Abstract要約: 本稿では,論理的推論のための新しい軽量評価手法を提案する。
提案手法は,1つのフォワードパスを計算し,慎重に選択されたヘッドから「QKスコア」を抽出することにより,無効な推論から確実に分離した潜在表現を明らかにする。
- 参考スコア(独自算出の注目度): 20.636818928993684
- License:
- Abstract: Large language models (LLMs) have demonstrated impressive performance in various natural language processing tasks, yet their ability to perform multi-step logical reasoning remains an open challenge. Although Chain-of-Thought prompting has improved logical reasoning by enabling models to generate intermediate steps, it lacks mechanisms to assess the coherence of these logical transitions. In this paper, we propose a novel, lightweight evaluation strategy for logical reasoning that uses query-key alignments inside transformer attention heads. By computing a single forward pass and extracting a "QK-score" from carefully chosen heads, our method reveals latent representations that reliably separate valid from invalid inferences, offering a scalable alternative to traditional ablation-based techniques. We also provide an empirical validation on multiple logical reasoning benchmarks, demonstrating improved robustness of our evaluation method against distractors and increased reasoning depth. The experiments were conducted on a diverse set of models, ranging from 1.5B to 70B parameters.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示してきたが、多段階論理推論を行う能力は依然としてオープンな課題である。
Chain-of-Thoughtプロンプトは、モデルが中間ステップを生成できるようにすることで論理的推論を改善したが、これらの論理遷移のコヒーレンスを評価するメカニズムが欠如している。
本稿では,トランスアテンションヘッド内におけるクエリキーアライメントを用いた論理的推論のための,新しい軽量な評価手法を提案する。
単一の前方通過を計算し、慎重に選択された頭から「QKスコア」を抽出することにより、従来のアブレーションに基づく手法に代わるスケーラブルな代替手段として、無効な推論から確実に分離した潜在表現を明らかにする。
また,複数の論理的推論ベンチマークに対する実証的検証を行い,評価手法のトラクタに対する堅牢性の向上と推論深度の向上を実証した。
実験は1.5Bから70Bパラメータの様々なモデルで実施された。
関連論文リスト
- Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [9.689096888732642]
本稿では,論理的情報記述を拡張的に生成するために,命題論理を用いた論理解(LoT)プロンプトを提案する。
LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-09-26T04:59:45Z) - Thought-Path Contrastive Learning via Premise-Oriented Data Augmentation for Logical Reading Comprehension [9.67774998354062]
これまでの研究は主に、Chain-of-Thought(CoT)やデータ拡張による論理的推論能力の向上に重点を置いてきた。
本稿では,CoTの論理式を生成するためのPODA(Premise-Oriented Data Augmentation)フレームワークを提案する。
また,本論文では,原案と反実例の推論経路を比較検討する新たな思考経路コントラスト学習手法についても紹介する。
論文 参考訳(メタデータ) (2024-09-22T15:44:43Z) - Logic Agent: Enhancing Validity with Logic Rule Invocation [24.815341366820753]
Chain-of-Thoughtプロンプトは、推論タスク中に言語モデルの推論能力を増強するための重要なテクニックとして現れている。
本稿では,大規模言語モデルにおける推論プロセスの有効性向上を目的としたエージェントベースのフレームワークであるLogic Agent(LA)を紹介する。
論文 参考訳(メタデータ) (2024-04-28T10:02:28Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。