論文の概要: HyperLens: Quantifying Cognitive Effort in LLMs with Fine-grained Confidence Trajectory
- arxiv url: http://arxiv.org/abs/2605.05741v1
- Date: Thu, 07 May 2026 06:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.566364
- Title: HyperLens: Quantifying Cognitive Effort in LLMs with Fine-grained Confidence Trajectory
- Title(参考訳): HyperLens: きめ細かい信頼軌道を用いたLLMにおける認知的努力の定量化
- Authors: Chengda Lu, Xiaoyu Fan, Wei Xu,
- Abstract要約: トランスアーキテクチャにおける本質的な拡大機構を同定する。
本稿では,信頼軌道の追跡を目的とした高分解能プローブHyperLensを紹介する。
データセット全体にわたって、HyperLensは、複雑なタスクと単純なタスクを分離する信頼性トラジェクトリの一貫性の相違を明らかにしている。
- 参考スコア(独自算出の注目度): 10.351595331564353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) achieve strong performance across diverse tasks, their inference dynamics remain poorly understood because of the limited resolution of existing analysis tools. In this work, we identify an intrinsic magnification mechanism in transformer architectures: deeper layers inherently magnify the small changes of layer-wise confidence, providing a fine-grained confidence trajectory. Building on this insight, we introduce HyperLens, a high-resolution probe designed to trace confidence trajectories and quantify the cognitive effort during inference. Across LLMs and datasets, HyperLens reveals a consistent divergence in confidence trajectories that separates complex from simple tasks. We abstract this pattern into a quantitative cognitive effort metric. Our analysis reveals a fundamental principle: complex tasks consistently require higher cognitive effort. Finally, we provide a mechanistic diagnosis of a common side effect of standard Supervised Fine-Tuning (SFT): it can reduce cognitive effort and consequently degrade performance on in-domain tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで高いパフォーマンスを達成するが、既存の分析ツールの解像度が限られているため、推論のダイナミクスはよく理解されていない。
本研究では,トランスアーキテクチャにおける内在的な拡大機構を同定する。より深い層は本質的に,層レベルでの信頼性の小さな変化を増大させ,きめ細かな信頼軌道を提供する。
この知見に基づいて,信頼軌道の追跡と推論時の認知活動の定量化を目的とした高分解能プローブHyperLensを導入する。
LLMとデータセット全体で、HyperLensは、複雑なタスクと単純なタスクを分離する信頼性トラジェクトリの一貫性の相違を明らかにしている。
我々はこのパターンを定量的な認知活動指標に抽象化する。
複雑なタスクは、常に高い認知力を必要とします。
最後に、標準的なスーパーバイザード・ファインチューニング(SFT)の共通副作用の機械的診断を行い、認知の労力を減らし、ドメイン内タスクのパフォーマンスを低下させる。
関連論文リスト
- Guided Collaboration in Heterogeneous LLM-Based Multi-Agent Systems via Entropy-Based Understanding Assessment and Experience Retrieval [35.96356869281219]
本稿では,強弱系における反直観的現象について述べる。
本稿では,各エージェントの認知状態を動的に調整するエントロピーに基づく適応誘導フレームワークを提案する。
我々のアプローチは、不均一なコラボレーションの有効性と安定性を一貫して向上させる。
論文 参考訳(メタデータ) (2026-02-14T07:10:04Z) - ResMAS: Resilience Optimization in LLM-based Multi-agent Systems [37.355345383912756]
大規模言語モデルに基づくマルチエージェントシステム(LLMベースMAS)
LLMベースのMASは一般的に異なるデバイスや環境に分散しており、エージェント障害などの摂動に弱い。
摂動下でのMASのレジリエンスについて検討し、通信トポロジと迅速な設計の両方がシステムのレジリエンスに大きく影響していることを見出した。
論文 参考訳(メタデータ) (2026-01-08T08:03:37Z) - Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning [54.12174882424842]
大規模言語モデル(LLM)は、様々なタスクにおいて最先端のパフォーマンスを達成したが、内部メカニズムに関してはほとんど不透明である。
本稿では,注目者の役割と行動を体系的に分析する新しい解釈可能性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T10:24:34Z) - Rethinking the Reliability of Multi-agent System: A Perspective from Byzantine Fault Tolerance [16.514747521376915]
大規模言語モデル (LLM) はマルチエージェントシステム (MAS) のメインブランチとして LLM ベースのエージェントを確立している。
本研究では, ビザンチン系耐故障性の観点から, LLM系エージェントの信頼性を検証し, 定量化する。
我々は、信頼度プローブに基づく重み付きビザンチン耐故障コンセンサス機構であるCP-WBFTを設計し、異なる位相でMASの安定性を向上させる。
論文 参考訳(メタデータ) (2025-11-13T15:20:12Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - United Minds or Isolated Agents? Exploring Coordination of LLMs under Cognitive Load Theory [27.886952948525476]
大規模言語モデル(LLM)は、複雑で多面的なタスクに顕著なパフォーマンス天井を示す。
CoThinkerは認知的過負荷を軽減し、協調的な問題解決能力を高めるために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-07T15:48:04Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。