論文の概要: A State-Vector Framework for Dataset Effects
- arxiv url: http://arxiv.org/abs/2310.10955v1
- Date: Tue, 17 Oct 2023 03:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:54:42.175808
- Title: A State-Vector Framework for Dataset Effects
- Title(参考訳): データセット効果のための状態ベクトルフレームワーク
- Authors: Esmat Sahak, Zining Zhu, Frank Rudzicz
- Abstract要約: この方向の厳密な研究を可能にするための状態ベクトルフレームワークを提案する。
このフレームワークはベクトル空間の基底として理想化された探索テスト結果を使用する。
一般的に使われている言語理解データセットの有意な影響は特徴的であり,いくつかの言語的側面に集中していることが示される。
- 参考スコア(独自算出の注目度): 20.255403795164856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive success of recent deep neural network (DNN)-based systems is
significantly influenced by the high-quality datasets used in training.
However, the effects of the datasets, especially how they interact with each
other, remain underexplored. We propose a state-vector framework to enable
rigorous studies in this direction. This framework uses idealized probing test
results as the bases of a vector space. This framework allows us to quantify
the effects of both standalone and interacting datasets. We show that the
significant effects of some commonly-used language understanding datasets are
characteristic and are concentrated on a few linguistic dimensions.
Additionally, we observe some ``spill-over'' effects: the datasets could impact
the models along dimensions that may seem unrelated to the intended tasks. Our
state-vector framework paves the way for a systematic understanding of the
dataset effects, a crucial component in responsible and robust model
development.
- Abstract(参考訳): 最近のディープニューラルネットワーク(dnn)ベースのシステムの成功は、トレーニングで使用される高品質なデータセットに大きく影響している。
しかし、データセット、特にそれらが相互にどのように相互作用するかは、未調査のままである。
この方向の厳密な研究を可能にするための状態ベクトルフレームワークを提案する。
このフレームワークは、ベクトル空間の基底として理想化された検査結果を用いる。
このフレームワークにより、スタンドアロンと相互作用するデータセットの両方の効果を定量化できます。
一般的に使われている言語理解データセットの有意な影響は特徴的であり,いくつかの言語的側面に集中していることを示す。
さらに、いくつかの ``spill-over'' 効果を観察した: データセットは、意図したタスクとは無関係に見える次元に沿ってモデルに影響を与える可能性がある。
当社のステートベクターフレームワークは、責任と堅牢なモデル開発において重要なコンポーネントであるデータセット効果を体系的に理解する方法を舗装しています。
関連論文リスト
- UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Comparing Importance Sampling Based Methods for Mitigating the Effect of
Class Imbalance [0.0]
我々は,損失再加重,アンダーサンプリング,オーバーサンプリングという,重要なサンプリングから導かれる3つのテクニックを比較した。
アンダーサンプリングにおける損失の重み付けは、アンダー表現されたクラスの性能に悪影響を及ぼすことがわかった。
我々の発見は、プラネタリーデータセットに何らかの冗長性が存在することも示唆している。
論文 参考訳(メタデータ) (2024-02-28T22:52:27Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - The Stanford Drone Dataset is More Complex than We Think: An Analysis of
Key Characteristics [2.064612766965483]
スタンフォード・ドローン・データセット(SDD)の特徴について論じる。
この不便さがユーザに提供する情報を減らし,パフォーマンスに与える影響を実証する。
私たちの意図は、今後このデータセットに適用されるパフォーマンスとメソッドを向上させると同時に、新しいユーザのためのデータセットの明らかでない特徴を明確化することにあります。
論文 参考訳(メタデータ) (2022-03-22T13:58:14Z) - On The State of Data In Computer Vision: Human Annotations Remain
Indispensable for Developing Deep Learning Models [0.0]
高品質ラベル付きデータセットは機械学習(ML)の発展に重要な役割を果たす
2012年にImageNetデータセットとAlexNetモデルが登場して以来、新しいオープンソースのラベル付きビジョンデータセットのサイズはほぼ一定である。
コンピュータビジョンコミュニティの少数の出版物は、Imagenetよりも桁違いの大きさのデータセットの教師付き学習に取り組む。
論文 参考訳(メタデータ) (2021-07-31T00:08:21Z) - Deep Structure Learning using Feature Extraction in Trained Projection
Space [0.0]
我々は、低次元空間における畳み込みによる特徴抽出を可能にするために、Randon-transform(線形データ投影)の自己調整およびデータ依存バージョンを用いてネットワークアーキテクチャを導入する。
PiNetという名前のフレームワークは、エンドツーエンドでトレーニングでき、ボリュームセグメンテーションタスクで有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-09-01T12:16:55Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。