論文の概要: Interpretable Discriminative Text Representations via Agreement and Label Disentanglement
- arxiv url: http://arxiv.org/abs/2605.20693v1
- Date: Wed, 20 May 2026 04:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.477806
- Title: Interpretable Discriminative Text Representations via Agreement and Label Disentanglement
- Title(参考訳): 合意とラベルの絡み合いによる解釈可能な識別テキスト表現
- Authors: Tong Wang, Yiqing Xu, Leo Yang Yang,
- Abstract要約: 本稿では,解釈可能な識別テキスト表現のための操作基準を提案する。
各座標は、一致の確率で測定された概念的明快さを満たすべきである。
LLM支援機能発見におけるこの基準のインスタンス化を行う。
- 参考スコア(独自算出の注目度): 4.2788570168072395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interpretable text representations should expose coordinates that are not only predictive, but also meaningful enough for independent auditors to apply. Existing discriminative representations often use anonymous embedding directions, while concept-bottleneck and LLM-assisted methods attach natural-language names to features without ensuring that those definitions are reproducible or distinct from the target label. We propose an operational criterion for interpretable discriminative text representations: each coordinate should satisfy conceptual clarity, measured by chance-adjusted agreement between independent annotators applying the feature definition, and label disentanglement, meaning the feature should not merely paraphrase the prediction target. We instantiate this criterion in LLM-assisted Feature Discovery (LFD), an iterative method that proposes lexical and semantic features from contrastive outcome-opposed text pairs, screens candidates using cross-LLM Cohen's $κ$, and selects features by residual held-out predictive gain. A stylized analysis connects the $κ$ screen to a per-feature annotation-noise bound, formalizing agreement as a reliability check. Across ten text-classification tasks spanning seven corpora, LFD matches the predictive performance of a strong text bottleneck baseline while producing substantially clearer and less label-entangled features. Human audits with 232 raters show that LFD features achieve higher human--human and human--LLM agreement than baseline concepts, and raters consistently judge them as less label-leaking. These results suggest that agreement-tested, label-disentangled coordinates provide a practical auditability standard for interpretable text classification.
- Abstract(参考訳): 解釈可能なテキスト表現は、予測だけでなく、独立監査官が適用するのに十分な意味のある座標を公開すべきである。
既存の識別表現は、しばしば匿名の埋め込み方向を使用するが、概念ボトルネックとLLM支援の手法は、それらの定義がターゲットのラベルと再現可能または区別されることを保証せずに、特徴に自然言語名をアタッチする。
各座標は、特徴定義を適用した独立アノテータ間の偶然調整された合意とラベルのアンタングルメントによって測定される概念的明快さを満足すべきであり、つまり、その特徴は単に予測対象を言い換えるべきではない。
LLM-assisted Feature Discovery (LFD) では、コントラッシブな結果提示されたテキストペアから語彙的特徴と意味的特徴を提案する反復的手法であり、クロスLLMコーエンの$κ$を用いて候補をスクリーニングし、残余な保留予測ゲインによって特徴を選択する。
スタイル化された分析は、κ$スクリーンを機能毎のアノテーション境界に接続し、信頼性チェックとして合意を定式化する。
7つのコーパスにまたがる10のテキスト分類タスクの中で、LFDは強力なテキストボトルネックベースラインの予測性能に匹敵すると同時に、かなり明確でラベルの絡み合った機能を生成する。
232人のレイターによる人間監査では、LFDの特徴はベースラインの概念よりも人間と人間-LLMの合意がより高いことが示され、ラガーはそれらをラベルリードの少ないものとして一貫して判断する。
これらの結果から, ラベル不整合座標は, 解釈可能なテキスト分類において, 現実的な監査可能性の基準となることが示唆された。
関連論文リスト
- SCALE: Semantic- and Confidence-Aware Conditional Variational Autoencoder for Zero-shot Skeleton-based Action Recognition [4.853241666510524]
ゼロショットスケルトンに基づくアクション認識(ZSAR)は、これらのクラスからのトレーニングスケルトンなしでアクションクラスを認識することを目的としている。
本稿では,ZSARをクラス条件エネルギーランキングとして定式化する,軽量で決定論的セマンティックなセマンティック・アンド・信頼を意識したエネルギーベースフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-02T16:12:42Z) - A Straightforward Pipeline for Targeted Entailment and Contradiction Detection [0.15229257192293197]
主要な課題は、どの文が特定のクレームの前提または矛盾として機能するかを特定することである。
対象分析のための両手法の強みを組み合わせた手法を提案する。
本手法は,NLIが同定した関係を注目度スコアとフィルタリングすることにより,テキスト中の任意のクレームに対する最も重要なセマンティックな関係を効率的に抽出する。
論文 参考訳(メタデータ) (2025-08-23T19:59:24Z) - Self-Regularization with Sparse Autoencoders for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文 参考訳(メタデータ) (2025-02-19T22:27:59Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - Human-Guided Fair Classification for Natural Language Processing [9.652938946631735]
本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
論文 参考訳(メタデータ) (2022-12-20T10:46:40Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。