論文の概要: LLM-Guided Semantic Bootstrapping for Interpretable Text Classification with Tsetlin Machines
- arxiv url: http://arxiv.org/abs/2604.12223v1
- Date: Tue, 14 Apr 2026 03:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.207488
- Title: LLM-Guided Semantic Bootstrapping for Interpretable Text Classification with Tsetlin Machines
- Title(参考訳): Tsetlin マシンを用いた解釈可能なテキスト分類のための LLM-Guided Semantic Bootstrapping
- Authors: Jiechao Gao, Rohan Kumar Yadav, Yuangang Li, Yuandong Pan, Jie Wang, Ying Liu, Michael Lepech,
- Abstract要約: BERTのような事前訓練された言語モデル(PLM)は強力な意味表現を提供するが、高価で不透明である。
本稿では,LLMの知識を記号形式に変換するセマンティックブートストラップフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.034780450032768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) like BERT provide strong semantic representations but are costly and opaque, while symbolic models such as the Tsetlin Machine (TM) offer transparency but lack semantic generalization. We propose a semantic bootstrapping framework that transfers LLM knowledge into symbolic form, combining interpretability with semantic capacity. Given a class label, an LLM generates sub-intents that guide synthetic data creation through a three-stage curriculum (seed, core, enriched), expanding semantic diversity. A Non-Negated TM (NTM) learns from these examples to extract high-confidence literals as interpretable semantic cues. Injecting these cues into real data enables a TM to align clause logic with LLM-inferred semantics. Our method requires no embeddings or runtime LLM calls, yet equips symbolic models with pretrained semantic priors. Across multiple text classification tasks, it improves interpretability and accuracy over vanilla TM, achieving performance comparable to BERT while remaining fully symbolic and efficient.
- Abstract(参考訳): BERTのような事前訓練された言語モデル(PLM)は強力な意味表現を提供するが、高価で不透明である。
本稿では,LLMの知識を記号形式に変換するセマンティックブートストラップフレームワークを提案する。
クラスラベルが与えられた後、LLMは3段階のカリキュラム(シード、コア、エンリッチ)を通じて合成データ作成をガイドするサブインテントを生成し、セマンティックな多様性を拡大する。
非負のTM(Non-Negated TM)はこれらの例から学習し、解釈可能な意味的手がかりとして高信頼リテラルを抽出する。
これらのキューを実際のデータに注入することで、TMは節論理をLLM推論セマンティクスと整合させることができる。
我々の手法では埋め込みやLCM呼び出しは必要ありませんが、事前訓練されたセマンティックプリミティブを持つシンボリックモデルを備えています。
複数のテキスト分類タスクにおいて、バニラTMに対する解釈可能性と精度を改善し、完全にシンボリックで効率的なまま、BERTに匹敵するパフォーマンスを達成する。
関連論文リスト
- LLM2Vec-Gen: Generative Embeddings from Large Language Models [38.742293185880364]
埋め込みモデルを訓練するための,新たな自己教師型アプローチを提案する。
入力を符号化するのではなく、モデルの潜在的な応答を表現することを学ぶ。
有害なコンテンツ検索の43.2%の削減と、埋め込みタスクの推論能力の29.3%の改善を観察する。
論文 参考訳(メタデータ) (2026-03-11T15:58:47Z) - Language Models as Semantic Augmenters for Sequential Recommenders [20.934150208996048]
大規模言語モデル(LLM)は、様々なモダリティをまたいだ潜在意味論と文脈的関係を捉えるのに優れています。
このようなシーケンスを自動的に強化するフレームワークであるLaMARを紹介する。
LaMARは、ユーザの意図とメタデータからの項目関係の潜在意味的側面を推測することにより、補助的なコンテキスト信号を生成する。
論文 参考訳(メタデータ) (2025-10-20T19:36:38Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - $\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。
texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文 参考訳(メタデータ) (2025-03-03T18:33:46Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Making Large Language Models A Better Foundation For Dense Retrieval [19.38740248464456]
デンス検索では,クエリとドキュメント間の意味的関係を表現するために,識別テキストの埋め込みを学習する必要がある。
意味理解におけるLLMの強い能力を考えると、大きな言語モデル(LLM)の使用の恩恵を受けるかもしれない。
本稿では,LLaRA (LLM adapted for dense RetrievAl) を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。