Fugu-MT 論文翻訳(概要): Towards Better Modeling with Missing Data: A Contrastive Learning-based Visual Analytics Perspective

論文の概要: Towards Better Modeling with Missing Data: A Contrastive Learning-based Visual Analytics Perspective

arxiv url: http://arxiv.org/abs/2309.09744v1
Date: Mon, 18 Sep 2023 13:16:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 13:21:58.460064
Title: Towards Better Modeling with Missing Data: A Contrastive Learning-based Visual Analytics Perspective
Title（参考訳）: 欠落データによるモデリングの改善に向けて - コントラスト学習に基づくビジュアル分析の観点から
Authors: Laixin Xie, Yang Ouyang, Longfei Chen, Ziming Wu, Quan Li
Abstract要約: データ不足は機械学習(ML)モデリングの課題となる可能性がある。現在のアプローチは、特徴計算とラベル予測に分類される。本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 7.577040836988683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Missing data can pose a challenge for machine learning (ML) modeling. To address this, current approaches are categorized into feature imputation and label prediction and are primarily focused on handling missing data to enhance ML performance. These approaches rely on the observed data to estimate the missing values and therefore encounter three main shortcomings in imputation, including the need for different imputation methods for various missing data mechanisms, heavy dependence on the assumption of data distribution, and potential introduction of bias. This study proposes a Contrastive Learning (CL) framework to model observed data with missing values, where the ML model learns the similarity between an incomplete sample and its complete counterpart and the dissimilarity between other samples. Our proposed approach demonstrates the advantages of CL without requiring any imputation. To enhance interpretability, we introduce CIVis, a visual analytics system that incorporates interpretable techniques to visualize the learning process and diagnose the model status. Users can leverage their domain knowledge through interactive sampling to identify negative and positive pairs in CL. The output of CIVis is an optimized model that takes specified features and predicts downstream tasks. We provide two usage scenarios in regression and classification tasks and conduct quantitative experiments, expert interviews, and a qualitative user study to demonstrate the effectiveness of our approach. In short, this study offers a valuable contribution to addressing the challenges associated with ML modeling in the presence of missing data by providing a practical solution that achieves high predictive accuracy and model interpretability.
Abstract（参考訳）: データ不足は機械学習(ML)モデリングの課題となる可能性がある。これを解決するために、現在のアプローチは特徴計算とラベル予測に分類され、主にMLのパフォーマンスを向上させるために欠落データを扱うことに重点を置いている。これらのアプローチは観測されたデータに依存して欠落した値を推定するので、様々な欠落したデータメカニズムに対する異なるインプテーション法の必要性、データ分布の仮定への重依存、バイアスの導入の可能性など、インプテーションの3つの主な欠点に遭遇する。本研究では,不完全サンプルとその完全サンプルとの類似性と,他のサンプルとの類似性をmlモデルが学習する,観測データに欠落した値をモデル化するためのコントラスト学習(cl)フレームワークを提案する。提案手法は計算を必要とせずにCLの利点を示す。解釈可能性を高めるために,解釈可能な手法を取り入れた視覚分析システムCIVisを導入し,学習過程を可視化し,モデルの状態を診断する。ユーザは対話的なサンプリングを通じてドメイン知識を活用して、CL内の負のペアと正のペアを特定することができる。 CIVisの出力は、特定の機能を取り、下流タスクを予測する最適化モデルである。回帰・分類作業における2つの利用シナリオを提供し,定量的実験,専門家インタビュー,質的なユーザスタディを行い,提案手法の有効性を実証する。この研究は、予測精度とモデル解釈可能性を達成する実用的なソリューションを提供することにより、欠落データの存在下でのMLモデリングに関連する課題に対処するための貴重な貢献を提供する。

関連論文リスト

LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文参考訳（メタデータ） (2025-12-26T11:11:25Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Instance-Level Data-Use Auditing of Visual ML Models [49.862257986549885]
機械学習(ML)システムにおけるデータの不正使用に関する法的論争の傾向は、信頼性の高いデータ利用監査機構の必要性を浮き彫りにしている。本稿では、データ所有者がMLモデルにおける個々のデータインスタンスの使用を監査できるように設計された、最初のプロアクティブな、インスタンスレベルのデータ利用監査手法を提案する。
論文参考訳（メタデータ） (2025-03-28T13:28:57Z)
Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。 ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。 ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-18T15:45:41Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Impact of Missing Values in Machine Learning: A Comprehensive Analysis [0.0]
本稿では,機械学習(ML)モデルにおける欠落値の影響について検討する。分析では、バイアス付き推論、予測能力の低下、計算負荷の増大など、欠落した値による課題に焦点を当てた。この研究は、欠落した値に対処する実践的な意味を説明するためにケーススタディと実例を用いている。
論文参考訳（メタデータ） (2024-10-10T18:31:44Z)
Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文参考訳（メタデータ） (2024-08-24T18:28:19Z)
The Common Stability Mechanism behind most Self-Supervised Learning Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文参考訳（メタデータ） (2024-02-22T20:36:24Z)
Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文参考訳（メタデータ） (2024-01-22T16:25:27Z)
AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文参考訳（メタデータ） (2024-01-12T09:17:32Z)
Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文参考訳（メタデータ） (2023-10-20T05:44:39Z)
Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文参考訳（メタデータ） (2023-05-11T14:35:00Z)
A prediction and behavioural analysis of machine learning methods for modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文参考訳（メタデータ） (2023-01-11T11:10:32Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。