論文の概要: Measuring and Analyzing Intelligence via Contextual Uncertainty in Large Language Models using Information-Theoretic Metrics
- arxiv url: http://arxiv.org/abs/2507.21129v2
- Date: Sun, 26 Oct 2025 00:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.727196
- Title: Measuring and Analyzing Intelligence via Contextual Uncertainty in Large Language Models using Information-Theoretic Metrics
- Title(参考訳): 情報理論メトリクスを用いた大規模言語モデルにおける文脈不確かさによるインテリジェンスの測定と解析
- Authors: Jae Wan Shim,
- Abstract要約: 本稿では,任意のモデルに対して定量的な認知プロファイルを構築するタスク非依存手法を提案する。
このプロファイルはエントロピー・ディケー・カーブ(Entropy Decay Curve)を中心に構築されている。
また,情報ゲイン・スパン (IGS) を1つの指標として提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel on many task-specific benchmarks, yet the mechanisms that drive this success remain poorly understood. We move from asking what these systems can do to asking how they process information. Our contribution is a task-agnostic method that builds a quantitative Cognitive Profile for any model. The profile is built around the Entropy Decay Curve-a plot of a model's normalised predictive uncertainty as context length grows. Across several state-of-the-art LLMs and diverse texts, the curves expose distinctive, stable profiles that depend on both model scale and text complexity. We also propose the Information Gain Span (IGS) as a single index that summarises the desirability of a decay pattern. Together, these tools offer a principled way to analyse and compare the internal dynamics of modern AI systems.
- Abstract(参考訳): 大規模言語モデル(LLMs)は多くのタスク固有のベンチマークで優れているが、この成功を導くメカニズムはいまだによく分かっていない。
私たちは、これらのシステムに何ができるかを尋ねるから、どのように情報を処理するかを問うへと移行します。
私たちの貢献はタスクに依存しない方法で、どんなモデルに対しても定量的な認知プロファイルを構築します。
このプロファイルはエントロピー・ディケー・カーブ(Entropy Decay Curve)を中心に構築されている。
最先端のLLMと多種多様なテキストにまたがって、曲線はモデルスケールとテキストの複雑さの両方に依存する特徴的で安定したプロファイルを明らかにする。
また,情報ゲイン・スパン (IGS) を1つの指標として提案する。
これらのツールは、現代のAIシステムの内部ダイナミクスを分析し比較するための、原則化された方法を提供する。
関連論文リスト
- Exploring a New Competency Modeling Process with Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)に基づく新しい能力モデリングプロセスを提案する。
具体的には、LLMを利用して、生のテキストデータから行動的・心理的記述を抽出する。
学習可能なパラメータを導入し、異なる情報ソースを適応的に統合し、モデルが行動信号と心理信号の相対的重要性を決定できるようにする。
論文 参考訳(メタデータ) (2026-02-13T16:46:51Z) - Addressing Explainability of Generative AI using SMILE (Statistical Model-agnostic Interpretability with Local Explanations) [0.0]
この論文では、生成モデルの説明可能性のための統一的なフレームワークであるgSMILEを紹介している。
gSMILEはテキスト入力の制御された摂動、ワッサーシュタイン距離測定、重み付き代理モデリングを採用している。
頑丈で人間に順応した属性を生成し、最先端のジェネレーティブモデルで効果的に一般化する。
論文 参考訳(メタデータ) (2026-02-01T12:54:51Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - Large Language Model Sourcing: A Survey [84.63438376832471]
大規模言語モデル(LLM)は人工知能に革命をもたらし、目的的タスクのサポートから主観的な意思決定の強化へと移行した。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が重要になる。
本研究は,4つの相互関連次元を中心に整理されたLCMによるコンテンツの出所追跡について,系統的研究を行った。
論文 参考訳(メタデータ) (2025-10-11T10:52:30Z) - Toward Purpose-oriented Topic Model Evaluation enabled by Large Language Models [0.8193467416247519]
トピック品質の4つの重要な側面にまたがる9つのLarge Language Models(LLM)ベースのメトリクスを利用する目的指向評価フレームワークを導入する。
このフレームワークは、敵対的およびサンプリングベースのプロトコルを通じて検証され、ニュース記事、学術出版物、ソーシャルメディア投稿にまたがるデータセットに適用される。
論文 参考訳(メタデータ) (2025-09-08T18:46:08Z) - When Does Multimodality Lead to Better Time Series Forecasting? [96.26052272121615]
このようなマルチモーダルな統合が常に利益をもたらすかどうか、どのような条件で検討する。
その結果,マルチモーダリティの利点は条件に依存していることが判明した。
我々の研究は、マルチモーダリティが予測タスクに役立つことをいつ予測できるかを理解するための厳密で定量的な基礎を提供する。
論文 参考訳(メタデータ) (2025-06-20T23:55:56Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Unified Explanations in Machine Learning Models: A Perturbation Approach [0.0]
XAIとモデリング技術の不整合は、これらの説明可能性アプローチの有効性に疑念を投げかけるという望ましくない効果をもたらす可能性がある。
我々はXAI, SHapley Additive exPlanations (Shap) において, 一般的なモデルに依存しない手法に対する系統的摂動解析を提案する。
我々は、一般的な機械学習とディープラーニングの手法のスイートと、静的ケースホールドで生成された説明の正確さを定量化するためのメトリクスの中で、動的推論の設定において、相対的な特徴重要度を生成するアルゴリズムを考案した。
論文 参考訳(メタデータ) (2024-05-30T16:04:35Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Sparse Graphical Linear Dynamical Systems [1.6635799895254402]
時系列データセットは機械学習の中心であり、科学と工学の様々な分野に応用されている。
本研究は,共同グラフィカル・モデリング・フレームワークを導入することでギャップを埋める新しい手法を提案する。
本稿では,DGLASSOを提案する。DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO,DGLASSO。
論文 参考訳(メタデータ) (2023-07-06T14:10:02Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Advanced Conditional Variational Autoencoders (A-CVAE): Towards
interpreting open-domain conversation generation via disentangling latent
feature representation [15.742077523458995]
本稿では,メソスコピックスケールの特徴的絡み合いを伴う認知的アプローチを通じて,先行知識による生成モデルを活用することを提案する。
本稿では,潜在空間分布の解釈可能性を客観的に評価できるオープンドメイン対話のための新しい指標を提案する。
論文 参考訳(メタデータ) (2022-07-26T07:39:36Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。
シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文 参考訳(メタデータ) (2021-04-29T12:18:02Z) - Understanding the Mechanics of SPIGOT: Surrogate Gradients for Latent
Structure Learning [20.506232306308977]
潜在構造モデルは、言語データをモデリングするための強力なツールである。
これらのモデルのエンドツーエンドトレーニングの課題の1つは、ヌル勾配を持つargmax演算である。
下流学習目標を引き上げる角度から潜在構造学習を探索する。
論文 参考訳(メタデータ) (2020-10-05T21:56:00Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。