Fugu-MT 論文翻訳(概要): Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization

論文の概要: Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization

arxiv url: http://arxiv.org/abs/2502.13632v1
Date: Wed, 19 Feb 2025 11:10:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.938122
Title: Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization
Title（参考訳）: 概念層:LLM概念化による解釈可能性とインターベンタビリティの強化
Authors: Or Raphael Bidusa, Shaul Markovitch,
Abstract要約: 本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
参考スコア（独自算出の注目度）: 2.163881720692685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The opaque nature of Large Language Models (LLMs) has led to significant research efforts aimed at enhancing their interpretability, primarily through post-hoc methods. More recent in-hoc approaches, such as Concept Bottleneck Models (CBMs), offer both interpretability and intervenability by incorporating explicit concept representations. However, these methods suffer from key limitations, including reliance on labeled concept datasets and significant architectural modifications that challenges re-integration into existing system pipelines. In this work, we introduce a new methodology for incorporating interpretability and intervenability into an existing model by integrating Concept Layers (CLs) into its architecture. Our approach projects the model's internal vector representations into a conceptual, explainable vector space before reconstructing and feeding them back into the model. Furthermore, we eliminate the need for a human-selected concept set by algorithmically searching an ontology for a set of concepts that can be either task-specific or task-agnostic. We evaluate CLs across multiple tasks, demonstrating that they maintain the original model's performance and agreement while enabling meaningful interventions. Additionally, we present a proof of concept showcasing an intervenability interface, allowing users to adjust model behavior dynamically, such as mitigating biases during inference.
Abstract（参考訳）: LLM(Large Language Models)の不透明な性質は、主にポストホック法を通じて、その解釈可能性を高めることを目的とした重要な研究努力につながっている。コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) のような最近のインホックなアプローチは、明示的な概念表現を取り入れることで、解釈可能性とインターベンタビリティの両方を提供する。しかしながら、これらのメソッドは、ラベル付きコンセプトデータセットへの依存や、既存のシステムパイプラインへの再統合に挑戦する重要なアーキテクチャ変更など、重要な制限に悩まされている。本稿では,概念層(CL)をアーキテクチャに組み込むことで,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。さらに,タスク固有の概念やタスクに依存しない概念の集合に対して,オントロジーをアルゴリズムで探索することで,人間の選択した概念セットの必要性を解消する。複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。さらに,インターベンタビリティインタフェースを実証し,推論時のバイアス軽減などのモデル動作を動的に調整する概念を提示する。

関連論文リスト

Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文参考訳（メタデータ） (2025-07-07T06:26:04Z)
Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文参考訳（メタデータ） (2025-06-05T06:39:43Z)
Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。 ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文参考訳（メタデータ） (2024-06-20T14:04:53Z)
LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文参考訳（メタデータ） (2024-05-29T00:36:56Z)
Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文参考訳（メタデータ） (2024-05-02T17:59:01Z)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文参考訳（メタデータ） (2024-01-09T16:16:16Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Learning to Receive Help: Intervention-Aware Concept Embedding Models [44.1307928713715]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルの概念セットを使用して予測を構築し、説明することによって、ニューラルネットワークの不透明さに対処する。近年の研究では、介入効果は概念が介入される順序に大きく依存していることが示されている。 IntCEM(Intervention-Aware Concept Embedding Model)は,テスト時間介入に対するモデルの受容性を改善する新しいCBMアーキテクチャとトレーニングパラダイムである。
論文参考訳（メタデータ） (2023-09-29T02:04:24Z)
Concept-Centric Transformers: Enhancing Model Interpretability through Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文参考訳（メタデータ） (2023-05-25T06:37:39Z)
Translational Concept Embedding for Generalized Compositional Zero-shot Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-12-20T21:27:51Z)
Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文参考訳（メタデータ） (2020-11-23T18:21:49Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。