Fugu-MT 論文翻訳(概要): Concept Bottleneck Large Language Models

論文の概要: Concept Bottleneck Large Language Models

arxiv url: http://arxiv.org/abs/2412.07992v1
Date: Wed, 11 Dec 2024 00:04:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.503905
Title: Concept Bottleneck Large Language Models
Title（参考訳）: 概念ボトルネック大言語モデル
Authors: Chung-En Sun, Tuomas Oikarinen, Berk Ustun, Tsui-Wei Weng,
Abstract要約: 概念ボトルネック大言語モデル(CB-LLM)について紹介する。 CB-LLMは、本質的に解釈可能な大言語モデル(LLM)を作成するための先駆的なアプローチである CB-LLMにおける解釈可能なニューロンは、概念検出とテキスト生成にどのように使用できるかを示す。
参考スコア（独自算出の注目度）: 15.852686755743415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the Concept Bottleneck Large Language Model (CB-LLM), a pioneering approach to creating inherently interpretable Large Language Models (LLMs). Unlike traditional black-box LLMs that rely on post-hoc interpretation methods with limited neuron function insights, CB-LLM sets a new standard with its built-in interpretability, scalability, and ability to provide clear, accurate explanations. We investigate two essential tasks in the NLP domain: text classification and text generation. In text classification, CB-LLM narrows the performance gap with traditional black-box models and provides clear interpretability. In text generation, we show how interpretable neurons in CB-LLM can be used for concept detection and steering text generation. Our CB-LLMs enable greater interaction between humans and LLMs across a variety of tasks -- a feature notably absent in existing LLMs. Our code is available at https://github.com/Trustworthy-ML-Lab/CB-LLMs.
Abstract（参考訳）: 本稿では,概念ボトルネック大言語モデル (CB-LLM) を紹介する。制限されたニューロン関数の洞察を持つポストホック解釈法に依存する従来のブラックボックスのLCMとは異なり、CB-LLMは、その解釈可能性、拡張性、明快で正確な説明を提供する能力を備えた新しい標準を定めている。 NLP領域において,テキスト分類とテキスト生成という2つの重要な課題について検討する。テキスト分類では、CB-LLMは従来のブラックボックスモデルと性能ギャップを狭め、明確な解釈性を提供する。テキスト生成では、CB-LLMの解釈可能なニューロンがどのように概念検出やステアリングテキスト生成に利用できるかを示す。私たちのCB-LLMは、さまざまなタスクにわたる人間とLLMのより深い相互作用を可能にします。私たちのコードはhttps://github.com/Trustworthy-ML-Lab/CB-LLMsで利用可能です。

関連論文リスト

MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
Liquid: Language Models are Scalable Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
Bayesian Concept Bottleneck Models with LLM Priors [8.895722261818209]
概念ボトルネックモデル (CBM) は、ホワイトボックスモデルとブラックボックスモデルの間の妥協として提案されており、精度を犠牲にすることなく解釈性を実現することを目的としている。 BC-LLM はベイズフレームワーク内の潜在的無限の概念を反復的に探索し、Large Language Models (LLM) が概念抽出のメカニズムと事前の両方として機能する。
論文参考訳（メタデータ） (2024-10-21T01:00:33Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)
Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。 ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文参考訳（メタデータ） (2024-07-12T04:38:28Z)
Crafting Large Language Models for Enhanced Interpretability [11.453164927352615]
Concept Bottleneck Large Language Model (CB-LLM)は、本質的に解釈可能なLarge Language Model(LLM)を作成するための先駆的なアプローチである。 CB-LLMは、その解釈可能性、スケーラビリティ、明確で正確な説明を提供する能力を備えた新しい標準を定めている。
論文参考訳（メタデータ） (2024-07-05T07:22:44Z)
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。 LLMの能力をフル活用するための新しいフレームワークを提案する。さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文参考訳（メタデータ） (2024-06-17T17:59:43Z)
Generative Text Steganography with Large Language Model [10.572149957139736]
LLM-Stegaと呼ばれる大規模言語モデルのユーザインタフェースに基づくブラックボックス生成テキストステガノグラフィー手法。まず、キーワードセットを構築し、秘密メッセージを埋め込むための新しい暗号化されたステガノグラフマッピングを設計する。総合的な実験により、LLM-Stegaは現在の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-04-16T02:19:28Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文参考訳（メタデータ） (2023-11-18T03:05:43Z)
Proto-lm: A Prototypical Network-Based Framework for Built-in Interpretability in Large Language Models [27.841725567976315]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、その解釈可能性の欠如が大きな関心事となっている。本稿では,LLMが即座に解釈可能な埋め込みを学習できるネットワークベースのホワイトボックスフレームワークであるproto-lmを紹介する。提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。
論文参考訳（メタデータ） (2023-11-03T05:55:32Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文参考訳（メタデータ） (2023-09-23T11:22:28Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。