Fugu-MT 論文翻訳(概要): What is different between these datasets?

論文の概要: What is different between these datasets?

arxiv url: http://arxiv.org/abs/2403.05652v2
Date: Wed, 29 Jan 2025 17:10:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 22:32:42.293074
Title: What is different between these datasets?
Title（参考訳）: これらのデータセットの違いは何か?
Authors: Varun Babbar, Zhicheng Guo, Cynthia Rudin,
Abstract要約: 同じ領域の2つのデータセットは異なる分布を示す可能性がある。本稿では,データセットの比較を行うための解釈可能な手法の汎用的ツールボックスを提案する。これらの手法は、動作可能で解釈可能な洞察を提供することによって既存の手法を補完する。
参考スコア（独自算出の注目度）: 20.706111458944502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The performance of machine learning models relies heavily on the quality of input data, yet real-world applications often face significant data-related challenges. A common issue arises when curating training data or deploying models: two datasets from the same domain may exhibit differing distributions. While many techniques exist for detecting such distribution shifts, there is a lack of comprehensive methods to explain these differences in a human-understandable way beyond opaque quantitative metrics. To bridge this gap, we propose a versatile toolbox of interpretable methods for comparing datasets. Using a variety of case studies, we demonstrate the effectiveness of our approach across diverse data modalities -- including tabular data, text data, images, time series signals -- in both low and high-dimensional settings. These methods complement existing techniques by providing actionable and interpretable insights to better understand and address distribution shifts.
Abstract（参考訳）: 機械学習モデルの性能は入力データの品質に大きく依存するが、現実のアプリケーションは多くの場合、重要なデータ関連の課題に直面している。トレーニングデータのキュレーションやモデルをデプロイする際の一般的な問題は、同じドメインの2つのデータセットが異なる分布を示す可能性があることだ。このような分布シフトを検出する技術は数多く存在するが、不透明な量的指標を超えた、人間の理解不能な方法でこれらの違いを説明する包括的な方法が欠如している。このギャップを埋めるために、データセットを比較するための解釈可能な手法の汎用的なツールボックスを提案する。さまざまなケーススタディを用いて、低次元と高次元の両方で、表データ、テキストデータ、画像、時系列信号など、さまざまなデータモダリティにまたがるアプローチの有効性を実証する。これらの手法は、分散シフトをよりよく理解し、対処するために、実用的な、解釈可能な洞察を提供することによって、既存のテクニックを補完する。

関連論文リスト

Cross-Learning from Scarce Data via Multi-Task Constrained Optimization [70.90607489166648]
本稿では,データ不足を克服するマルチタスク・エンフクロス学習フレームワークを提案する。我々はこの結合推定を制約付き最適化問題として定式化する。本研究では, 画像分類や伝染病の伝播を含む実データを用いて, クロスラーニング手法の有効性を示す。
論文参考訳（メタデータ） (2025-11-17T18:35:59Z)
Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文参考訳（メタデータ） (2025-02-24T14:20:22Z)
Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文参考訳（メタデータ） (2024-06-07T14:29:21Z)
Flexible inference in heterogeneous and attributed multilayer networks [21.349513661012498]
我々は任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発した。インド農村部における社会支援ネットワークにおける様々なパターンを明らかにする能力を示す。
論文参考訳（メタデータ） (2024-05-31T15:21:59Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
Interpretable Tensor Fusion [26.314148163750257]
InTense(Interpretable tensor fusion)は,マルチモーダルデータ表現を同時に学習するためのニューラルネットワークのトレーニング手法である。 InTenseは、関連スコアをモダリティとその関連に割り当てることで、ボックスから解釈可能性を提供する。 6つの実世界のデータセットの実験により、InTenseは精度と解釈可能性の観点から、既存の最先端のマルチモーダル解釈アプローチより優れていることが示された。
論文参考訳（メタデータ） (2024-05-07T21:05:50Z)
UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文参考訳（メタデータ） (2024-03-22T10:36:50Z)
Improving Transferability for Cross-domain Trajectory Prediction via Neural Stochastic Differential Equation [41.09061877498741]
外部要因とデータ取得戦略によるデータセット間での相違がある。大規模データセットでトレーニングされたモデルの熟練した性能は、他の小規模データセットでの転送可能性に制限がある。本稿では,ニューラル微分方程式(NSDE)の連続的利用に基づく不一致の緩和手法を提案する。提案手法の有効性は,一般的なベンチマークデータセットであるnuScenes,Argoverse,Lyft,InterinterAction,Open Motionデータセット上で,最先端の軌道予測モデルに対して検証される。
論文参考訳（メタデータ） (2023-12-26T06:50:29Z)
MixUp-MIL: A Study on Linear & Multilinear Interpolation-Based Data Augmentation for Whole Slide Image Classification [1.5810132476010594]
本稿では,デジタルスライド画像の分類のためのデータ拡張手法について検討する。その結果,本手法の効果は極めて高い変動性を示した。我々は暗黒に光をもたらすいくつかの興味深い側面を特定し、新しい研究分野を同定した。
論文参考訳（メタデータ） (2023-11-06T12:00:53Z)
SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文参考訳（メタデータ） (2023-04-06T17:36:23Z)
Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文参考訳（メタデータ） (2022-09-29T18:11:01Z)
Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics [3.9627732117855414]
メタデータ考古学のための統一的で効率的なフレームワークを提供することに注力する。データセットに存在する可能性のあるデータのさまざまなサブセットをキュレートします。これらのプローブスイート間の学習力学の相違を利用して、関心のメタデータを推測する。
論文参考訳（メタデータ） (2022-09-20T21:52:39Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Enhancing ensemble learning and transfer learning in multimodal data analysis by adaptive dimensionality reduction [10.646114896709717]
マルチモーダルデータ分析では、すべての観測が同じレベルの信頼性や情報品質を示すわけではない。この問題を克服するために,次元削減のための適応的アプローチを提案する。多様な研究分野で得られたマルチモーダルデータセットのアプローチをテストします。
論文参考訳（メタデータ） (2021-05-08T11:53:12Z)
DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。 2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。手動でラベルをクリーニングするには人的努力が要る特に何百万もの画像と何千ものIDがある時は
論文参考訳（メタデータ） (2021-01-14T01:59:52Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Learning while Respecting Privacy and Robustness to Distributional Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文参考訳（メタデータ） (2020-07-07T18:25:25Z)
Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文参考訳（メタデータ） (2020-07-06T15:12:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。