論文の概要: Visual Exploration of Stopword Probabilities in Topic Models
- arxiv url: http://arxiv.org/abs/2501.10137v1
- Date: Fri, 17 Jan 2025 11:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:50.977574
- Title: Visual Exploration of Stopword Probabilities in Topic Models
- Title(参考訳): トピックモデルにおけるストップワード確率の視覚的探索
- Authors: Shuangjiang Xue, Pierre Le Bras, David A. Robb, Mike J. Chantler, Stefano Padilla,
- Abstract要約: 停止語除去は多くの機械学習手法において重要な段階である。
不適切な選択または急いで省略された停止語は、最適以下の性能をもたらすだけでなく、モデルの品質にも大きな影響を及ぼす。
本稿では,停止語確率をコーパス固有確率で推定する新しい抽出法を提案する。
- 参考スコア(独自算出の注目度): 1.9107347888374506
- License:
- Abstract: Stopword removal is a critical stage in many Machine Learning methods but often receives little consideration, it interferes with the model visualizations and disrupts user confidence. Inappropriately chosen or hastily omitted stopwords not only lead to suboptimal performance but also significantly affect the quality of models, thus reducing the willingness of practitioners and stakeholders to rely on the output visualizations. This paper proposes a novel extraction method that provides a corpus-specific probabilistic estimation of stopword likelihood and an interactive visualization system to support their analysis. We evaluated our approach and interface using real-world data, a commonly used Machine Learning method (Topic Modelling), and a comprehensive qualitative experiment probing user confidence. The results of our work show that our system increases user confidence in the credibility of topic models by (1) returning reasonable probabilities, (2) generating an appropriate and representative extension of common stopword lists, and (3) providing an adjustable threshold for estimating and analyzing stopwords visually. Finally, we discuss insights, recommendations, and best practices to support practitioners while improving the output of Machine Learning methods and topic model visualizations with robust stopword analysis and removal.
- Abstract(参考訳): ストップワードの除去は多くの機械学習手法において重要な段階であるが、ほとんど考慮されないことが多く、モデルの視覚化に干渉し、ユーザの信頼を損なう。
不適切な選択または急いで省略された停止語は、最適以下のパフォーマンスをもたらすだけでなく、モデルの品質にも大きな影響を与えるため、実践者やステークホルダーがアウトプットビジュアライゼーションに頼る意思を低下させる。
本稿では,コーパス固有の確率的確率推定手法を提案するとともに,その解析を支援する対話型可視化システムを提案する。
我々は,実世界のデータ,一般的な機械学習手法(トピックモデリング),およびユーザ信頼度を示す総合的定性実験を用いて,我々のアプローチとインターフェースを評価した。
本研究の結果から,(1)合理的な確率の返却,(2)共通語リストの適切かつ代表的な拡張生成,(3)視覚的に停止語を推定・解析するための調整可能なしきい値の提供により,トピックモデルの信頼性に対するユーザの信頼感が向上することが示唆された。
最後に、堅牢なストップワード分析と削除による機械学習手法とトピックモデルの可視化のアウトプットを改善しながら、実践者を支援するための洞察、勧告、ベストプラクティスについて議論する。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Towards Unifying Interpretability and Control: Evaluation via Intervention [25.4582941170387]
我々は、介入が解釈可能性の基本的な目標であり、介入によるモデル行動の制御方法の評価に成功基準を導入することを論じる。
我々は4つの一般的な解釈可能性手法、スパースオートエンコーダ、ロジットレンズ、チューニングレンズ、および探索を抽象エンコーダデコーダフレームワークに拡張する。
モデルの動作を制御するための説明の正確性とその有用性を測定するために,介入成功率とコヒーレンス・インターベンショントレードオフという2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-11-07T04:52:18Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Intuitively Assessing ML Model Reliability through Example-Based
Explanations and Editing Model Inputs [19.09848738521126]
解釈可能性メソッドは、機械学習モデルの能力に対する信頼の構築と理解を支援することを目的とする。
モデル信頼性をより直感的に評価するための2つのインターフェースモジュールを紹介します。
論文 参考訳(メタデータ) (2021-02-17T02:41:32Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - A Semiparametric Approach to Interpretable Machine Learning [9.87381939016363]
機械学習におけるブラックボックスモデルは、複雑な問題と高次元設定において優れた予測性能を示した。
透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限します。
半パラメトリック統計学のアイデアを用いて予測モデルにおける解釈可能性と性能のトレードオフを行う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-08T16:38:15Z) - Calibrating Healthcare AI: Towards Reliable and Interpretable Deep
Predictive Models [41.58945927669956]
これらの2つの目的は必ずしも相違するものではなく、予測キャリブレーションを利用して両方の目的を満たすことを提案する。
本手法はキャリブレーション駆動型学習法により構成され, 対実的推論に基づく解釈可能性手法の設計にも用いられている。
論文 参考訳(メタデータ) (2020-04-27T22:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。