論文の概要: Improving Text Relationship Modeling with Artificial Data
- arxiv url: http://arxiv.org/abs/2010.14640v1
- Date: Tue, 27 Oct 2020 22:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:07:50.171309
- Title: Improving Text Relationship Modeling with Artificial Data
- Title(参考訳): 人工データによるテキスト関係モデリングの改善
- Authors: Peter Organisciak, Maggie Ryan
- Abstract要約: 本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
- 参考スコア(独自算出の注目度): 0.07614628596146598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation uses artificially-created examples to support supervised
machine learning, adding robustness to the resulting models and helping to
account for limited availability of labelled data. We apply and evaluate a
synthetic data approach to relationship classification in digital libraries,
generating artificial books with relationships that are common in digital
libraries but not easier inferred from existing metadata. We find that for
classification on whole-part relationships between books, synthetic data
improves a deep neural network classifier by 91%. Further, we consider the
ability of synthetic data to learn a useful new text relationship class from
fully artificial training data.
- Abstract(参考訳): データ拡張は、人工的に生成されたサンプルを使用して、教師付き機械学習をサポートし、結果のモデルに堅牢性を追加し、ラベル付きデータの可用性の制限を考慮できる。
デジタル図書館における関係分類に合成データアプローチを適用し,評価し,既存のメタデータから推測するに足らず,デジタル図書館に共通な関係性を持つ人工書を生成する。
書籍間の全部関係の分類において,合成データはディープニューラルネットワーク分類器を91%向上させることがわかった。
さらに、完全人工学習データから有用な新しいテキスト関係クラスを学ぶための合成データの能力についても検討する。
関連論文リスト
- Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Rule-adhering synthetic data -- the lingua franca of learning [0.0]
本研究では、ドメインの専門知識をデータ合成に組み込むアプローチについて検討する。
生成した合成データジェネレータは、任意の種類の新しいサンプルに対してプローブすることができる。
我々は、公開データセットの概念を実証し、その利点を記述的分析と下流MLモデルを用いて評価する。
論文 参考訳(メタデータ) (2022-09-12T20:01:13Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。