論文の概要: infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information
- arxiv url: http://arxiv.org/abs/2305.19344v2
- Date: Mon, 12 Jun 2023 10:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 23:32:44.648416
- Title: infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information
- Title(参考訳): infoverse:多次元メタ情報を用いたデータセットキャラクタリゼーションのためのユニバーサルフレームワーク
- Authors: Jaehyung Kim, Yekyung Kim, Karin de Langis, Jinwoo Shin, Dongyeop Kang
- Abstract要約: infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 68.76707843019886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of NLP systems often relies on the availability of large,
high-quality datasets. However, not all samples in these datasets are equally
valuable for learning, as some may be redundant or noisy. Several methods for
characterizing datasets based on model-driven meta-information (e.g., model's
confidence) have been developed, but the relationship and complementary effects
of these methods have received less attention. In this paper, we introduce
infoVerse, a universal framework for dataset characterization, which provides a
new feature space that effectively captures multidimensional characteristics of
datasets by incorporating various model-driven meta-information. infoVerse
reveals distinctive regions of the dataset that are not apparent in the
original semantic space, hence guiding users (or models) in identifying which
samples to focus on for exploration, assessment, or annotation. Additionally,
we propose a novel sampling method on infoVerse to select a set of data points
that maximizes informativeness. In three real-world applications (data pruning,
active learning, and data annotation), the samples chosen on infoVerse space
consistently outperform strong baselines in all applications. Our code and demo
are publicly available.
- Abstract(参考訳): NLPシステムの成功はしばしば、大規模で高品質なデータセットの可用性に依存している。
しかし、これらのデータセットのすべてのサンプルが学習に等しく価値があるわけではない。
モデル駆動メタ情報に基づくデータセットの特徴付け手法(例えば、モデルの信頼度)が開発されているが、これらの手法の関係や補完効果は注目されていない。
本稿では,様々なモデル駆動型メタ情報を取り込むことで,データセットの多次元特性を効果的に捉えるための新しい特徴空間を提供する,データセットキャラクタリゼーションのためのユニバーサルフレームワークであるinfoverseを提案する。
infoVerseは、元のセマンティック空間では明らかでないデータセットの特徴的な領域を明らかにし、ユーザー(またはモデル)に調査、アセスメント、アノテーションに焦点を当てるべきサンプルを特定する。
さらに,情報度を最大化する一連のデータポイントを選択するために,インフォバースを用いた新しいサンプリング手法を提案する。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、すべてのアプリケーションにおいて強いベースラインを一貫して上回る。
私たちのコードとデモは公開されています。
関連論文リスト
- Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning [3.623224034411137]
オフラインマルチエージェント強化学習(英語: offline multi-agent reinforcement learning, MARL)は、静的データセットを用いてマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。
この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。
研究の大部分は、一貫した方法論を使わずに独自のデータセットを生成し、これらのデータセットの特徴に関するまばらな情報を提供する。
論文 参考訳(メタデータ) (2024-09-18T14:13:24Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Rethinking of Encoder-based Warm-start Methods in Hyperparameter Optimization [0.0]
本研究では,岩田具治と熊谷篤俊をモデルとした表型データを用いた表現学習手法を提案する。
一般表現は,要求が抽出中に明示的に考慮されないメタタスクでは十分でないことを示す。
論文 参考訳(メタデータ) (2024-03-07T18:16:29Z) - Revisiting Table Detection Datasets for Visually Rich Documents [17.846536373106268]
この研究では、高品質なアノテーションでいくつかのオープンデータセットを再検討し、ノイズを特定し、クリーン化し、これらのデータセットのアノテーション定義を、Open-Tablesと呼ばれるより大きなデータセットとマージするように調整する。
情報通信技術(ICT)コモディティのPDFファイルを用いた新しいICT-TDデータセットを提案する。
実験の結果,データソースが異なるにも関わらず,既存のオープンデータセット間の領域差は小さいことがわかった。
論文 参考訳(メタデータ) (2023-05-04T01:08:15Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Learning a Self-Expressive Network for Subspace Clustering [15.096251922264281]
本稿では,データ表現の自己表現を学習するために,適切に設計されたニューラルネットワークを用いた,自己表現型ネットワーク(SENet)と呼ばれる,サブスペースクラスタリングのための新しいフレームワークを提案する。
私たちのSENetは、トレーニングデータに望ましい特性を持つ自己表現係数を学習するだけでなく、サンプル外のデータも処理します。
特に、SENetはMNIST、Fashion MNIST、Extended MNISTで高い競争力を発揮し、CIFAR-10で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-10-08T18:06:06Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。