Fugu-MT 論文翻訳(概要): Visual Exploration of Stopword Probabilities in Topic Models

論文の概要: Visual Exploration of Stopword Probabilities in Topic Models

arxiv url: http://arxiv.org/abs/2501.10137v1
Date: Fri, 17 Jan 2025 11:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.751377
Title: Visual Exploration of Stopword Probabilities in Topic Models
Title（参考訳）: トピックモデルにおけるストップワード確率の視覚的探索
Authors: Shuangjiang Xue, Pierre Le Bras, David A. Robb, Mike J. Chantler, Stefano Padilla,
Abstract要約: 停止語除去は多くの機械学習手法において重要な段階である。不適切な選択または急いで省略された停止語は、最適以下の性能をもたらすだけでなく、モデルの品質にも大きな影響を及ぼす。本稿では,停止語確率をコーパス固有確率で推定する新しい抽出法を提案する。
参考スコア（独自算出の注目度）: 1.9107347888374506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stopword removal is a critical stage in many Machine Learning methods but often receives little consideration, it interferes with the model visualizations and disrupts user confidence. Inappropriately chosen or hastily omitted stopwords not only lead to suboptimal performance but also significantly affect the quality of models, thus reducing the willingness of practitioners and stakeholders to rely on the output visualizations. This paper proposes a novel extraction method that provides a corpus-specific probabilistic estimation of stopword likelihood and an interactive visualization system to support their analysis. We evaluated our approach and interface using real-world data, a commonly used Machine Learning method (Topic Modelling), and a comprehensive qualitative experiment probing user confidence. The results of our work show that our system increases user confidence in the credibility of topic models by (1) returning reasonable probabilities, (2) generating an appropriate and representative extension of common stopword lists, and (3) providing an adjustable threshold for estimating and analyzing stopwords visually. Finally, we discuss insights, recommendations, and best practices to support practitioners while improving the output of Machine Learning methods and topic model visualizations with robust stopword analysis and removal.
Abstract（参考訳）: ストップワードの除去は多くの機械学習手法において重要な段階であるが、ほとんど考慮されないことが多く、モデルの視覚化に干渉し、ユーザの信頼を損なう。不適切な選択または急いで省略された停止語は、最適以下のパフォーマンスをもたらすだけでなく、モデルの品質にも大きな影響を与えるため、実践者やステークホルダーがアウトプットビジュアライゼーションに頼る意思を低下させる。本稿では,コーパス固有の確率的確率推定手法を提案するとともに,その解析を支援する対話型可視化システムを提案する。我々は,実世界のデータ,一般的な機械学習手法(トピックモデリング),およびユーザ信頼度を示す総合的定性実験を用いて,我々のアプローチとインターフェースを評価した。本研究の結果から,(1)合理的な確率の返却,(2)共通語リストの適切かつ代表的な拡張生成,(3)視覚的に停止語を推定・解析するための調整可能なしきい値の提供により,トピックモデルの信頼性に対するユーザの信頼感が向上することが示唆された。最後に、堅牢なストップワード分析と削除による機械学習手法とトピックモデルの可視化のアウトプットを改善しながら、実践者を支援するための洞察、勧告、ベストプラクティスについて議論する。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Risk Analysis and Design Against Adversarial Actions [1.9573380763700716]
本稿では,多種多様なタイプや強度の攻撃に対するモデルの堅牢性を評価するための,多種多様で先進的なフレームワークを提案する。その結果、追加のテストデータを必要としないモデル脆弱性の評価が可能になり、配布不要のセットアップで運用される。
論文参考訳（メタデータ） (2025-05-02T09:16:44Z)
Epistemic Uncertainty-aware Recommendation Systems via Bayesian Deep Ensemble Learning [2.3310092106321365]
より堅牢で信頼性の高い予測を生成するために,アンサンブルに基づくスーパーモデルを提案する。また,ユーザとアイテムの埋め込みに対して,解釈可能な非線形マッチング手法を導入する。
論文参考訳（メタデータ） (2025-04-14T23:04:35Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは彼らの公正さ、信頼性、そして誤用の可能性について批判的な議論を呼んだ組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Towards Unifying Interpretability and Control: Evaluation via Intervention [25.4582941170387]
我々は、介入が解釈可能性の基本的な目標であり、介入によるモデル行動の制御方法の評価に成功基準を導入することを論じる。我々は4つの一般的な解釈可能性手法、スパースオートエンコーダ、ロジットレンズ、チューニングレンズ、および探索を抽象エンコーダデコーダフレームワークに拡張する。モデルの動作を制御するための説明の正確性とその有用性を測定するために,介入成功率とコヒーレンス・インターベンショントレードオフという2つの新しい評価指標を導入する。
論文参考訳（メタデータ） (2024-11-07T04:52:18Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文参考訳（メタデータ） (2024-08-27T19:27:43Z)
Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文参考訳（メタデータ） (2024-08-24T18:28:19Z)
Intuitively Assessing ML Model Reliability through Example-Based Explanations and Editing Model Inputs [19.09848738521126]
解釈可能性メソッドは、機械学習モデルの能力に対する信頼の構築と理解を支援することを目的とする。モデル信頼性をより直感的に評価するための2つのインターフェースモジュールを紹介します。
論文参考訳（メタデータ） (2021-02-17T02:41:32Z)
Self-Supervised Contrastive Learning for Efficient User Satisfaction Prediction in Conversational Agents [35.2098736872247]
ユーザとエージェントのインタラクションを学習するための,自己指導型コントラスト学習手法を提案する。自己教師対象を用いた事前学習モデルは,ユーザ満足度予測に転送可能であることを示す。また、非常に小さなサンプルサイズに対して、より優れた転送性を確保するために、新しい数発の転送学習手法を提案する。
論文参考訳（メタデータ） (2020-10-21T18:10:58Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
A Semiparametric Approach to Interpretable Machine Learning [9.87381939016363]
機械学習におけるブラックボックスモデルは、複雑な問題と高次元設定において優れた予測性能を示した。透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限します。半パラメトリック統計学のアイデアを用いて予測モデルにおける解釈可能性と性能のトレードオフを行う新しい手法を提案する。
論文参考訳（メタデータ） (2020-06-08T16:38:15Z)
Calibrating Healthcare AI: Towards Reliable and Interpretable Deep Predictive Models [41.58945927669956]
これらの2つの目的は必ずしも相違するものではなく、予測キャリブレーションを利用して両方の目的を満たすことを提案する。本手法はキャリブレーション駆動型学習法により構成され, 対実的推論に基づく解釈可能性手法の設計にも用いられている。
論文参考訳（メタデータ） (2020-04-27T22:15:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。