Fugu-MT 論文翻訳(概要): TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation

論文の概要: TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation

arxiv url: http://arxiv.org/abs/2407.10114v1
Date: Sun, 14 Jul 2024 08:07:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 19:28:46.606113
Title: TokenSHAP: Interpreting Large Language Models with Monte Carlo Shapley Value Estimation
Title（参考訳）: TokenSHAP:Monte Carlo Shapley値推定による大規模言語モデルの解釈
Authors: Roni Goldshmidt, Miriam Horovicz,
Abstract要約: TokenSHAPは、大規模言語モデルを解釈する新しい方法である。これは、協調ゲーム理論から自然言語処理へのシェープリー値の適応である。トークンの重要性を解釈可能で定量的に測定する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) become increasingly prevalent in critical applications, the need for interpretable AI has grown. We introduce TokenSHAP, a novel method for interpreting LLMs by attributing importance to individual tokens or substrings within input prompts. This approach adapts Shapley values from cooperative game theory to natural language processing, offering a rigorous framework for understanding how different parts of an input contribute to a model's response. TokenSHAP leverages Monte Carlo sampling for computational efficiency, providing interpretable, quantitative measures of token importance. We demonstrate its efficacy across diverse prompts and LLM architectures, showing consistent improvements over existing baselines in alignment with human judgments, faithfulness to model behavior, and consistency. Our method's ability to capture nuanced interactions between tokens provides valuable insights into LLM behavior, enhancing model transparency, improving prompt engineering, and aiding in the development of more reliable AI systems. TokenSHAP represents a significant step towards the necessary interpretability for responsible AI deployment, contributing to the broader goal of creating more transparent, accountable, and trustworthy AI systems.
Abstract（参考訳）: 大規模言語モデル(LLM)がクリティカルなアプリケーションでますます普及するにつれて、解釈可能なAIの必要性が高まっている。入力プロンプト内の個々のトークンやサブストリングに重きを置くことでLLMを解釈する新しい手法であるTokenSHAPを紹介する。このアプローチは、協調ゲーム理論から自然言語処理へのシェープリー値を適用し、入力の異なる部分がモデルの応答にどのように貢献するかを理解するための厳密な枠組みを提供する。 TokenSHAPはモンテカルロサンプリングを計算効率に利用し、トークンの重要性の解釈可能な定量的尺度を提供する。多様なプロンプトやLLMアーキテクチャにまたがって有効性を実証し、人間の判断、モデル行動への忠実性、一貫性に則って既存のベースラインよりも一貫した改善を示す。トークン間のニュアンスなインタラクションをキャプチャする我々の方法の能力は、LCMの振る舞いに関する貴重な洞察を与え、モデルの透明性を高め、迅速なエンジニアリングを改善し、より信頼性の高いAIシステムの開発を支援する。 TokenSHAPは、責任あるAIデプロイメントに必要な解釈可能性への重要なステップであり、より透明性があり、説明責任があり、信頼できるAIシステムを構築するという、より広い目標に寄与している。

関連論文リスト

Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings [25.565372681837697]
クエリに類似するレベルが異なる多様な負のサンプルを生成するために,マルチグラニュラリティ・ハード負(MGH)合成フレームワークを導入する。また,Anchor Token Aware(ATA)プーリング手法を提案する。
論文参考訳（メタデータ） (2025-08-31T13:24:48Z)
Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-24T09:49:53Z)
Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文参考訳（メタデータ） (2025-07-02T14:03:01Z)
Enhancing ML Model Interpretability: Leveraging Fine-Tuned Large Language Models for Better Understanding of AI [1.0737278711356866]
本稿では,微調整 LLM を用いた XAI の解釈のための新しい参照アーキテクチャを提案する。我々は、電池のステート・オブ・ヘルス(SoH)予測の文脈で参照アーキテクチャをインスタンス化し、その設計を複数の評価と実演ラウンドで検証する。評価の結果,実装されたプロトタイプは,特にXAI経験の少ないユーザに対して,MLの人間の解釈可能性を高めることが示唆された。
論文参考訳（メタデータ） (2025-05-02T20:57:55Z)
Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [45.05285463251872]
我々は,新世代の大規模言語モデル(LLM)に不可欠なアプローチとして,新しい学習パラダイム - Modular Machine Learning (MML) を導入する。 MMLは、LLMの複雑な構造を、モジュラー表現、モジュラーモデル、モジュラー推論の3つの相互依存コンポーネントに分解する。本稿では,非絡み合い表現学習,ニューラルアーキテクチャ探索,ニューロシンボリック学習などの高度な技術を活用して,MLに基づくLLMの実現の可能性を示す。
論文参考訳（メタデータ） (2025-04-28T17:42:02Z)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
スパースオートエンコーダ (SAEs) は,大規模言語モデル (LLMs) の解釈可能性と操舵性を向上させることが示されている。本研究では,SAEをCLIPなどの視覚言語モデル(VLM)に適用し,視覚表現における単意味性を評価するための総合的な枠組みを導入する。
論文参考訳（メタデータ） (2025-04-03T17:58:35Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights [10.777646083061395]
本稿では,大規模言語モデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである概念編集を紹介する。我々は、トランスモデルのマルチ層パーセプトロン(MLP)、マルチヘッドアテンション(MHA)、および隠れ状態成分を解析する。我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
論文参考訳（メタデータ） (2024-08-05T18:50:08Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文参考訳（メタデータ） (2024-06-08T16:35:31Z)
Large Language Model-Based Interpretable Machine Learning Control in Building Energy Systems [3.0309252269809264]
本稿では、モデルとその推論の透明性と理解を高める機械学習(ML)の分野である、解釈可能な機械学習(IML)について検討する。共有価値の原則とLarge Language Models(LLMs)のコンテキスト内学習機能を組み合わせた革新的なフレームワークを開発する。本稿では,仮想テストベッドにおける需要応答イベント下での予測制御に基づく事前冷却モデルの実現可能性を示すケーススタディを提案する。
論文参考訳（メタデータ） (2024-02-14T21:19:33Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
IERL: Interpretable Ensemble Representation Learning -- Combining CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文参考訳（メタデータ） (2023-06-24T05:02:34Z)
Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。 AMPLIFYは,幅広いタスクに対して約10～25%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-19T04:46:04Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。