論文の概要: Improving Text Relationship Modeling with Artificial Data
- arxiv url: http://arxiv.org/abs/2010.14640v1
- Date: Tue, 27 Oct 2020 22:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:07:50.171309
- Title: Improving Text Relationship Modeling with Artificial Data
- Title(参考訳): 人工データによるテキスト関係モデリングの改善
- Authors: Peter Organisciak, Maggie Ryan
- Abstract要約: 本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
- 参考スコア(独自算出の注目度): 0.07614628596146598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation uses artificially-created examples to support supervised
machine learning, adding robustness to the resulting models and helping to
account for limited availability of labelled data. We apply and evaluate a
synthetic data approach to relationship classification in digital libraries,
generating artificial books with relationships that are common in digital
libraries but not easier inferred from existing metadata. We find that for
classification on whole-part relationships between books, synthetic data
improves a deep neural network classifier by 91%. Further, we consider the
ability of synthetic data to learn a useful new text relationship class from
fully artificial training data.
- Abstract(参考訳): データ拡張は、人工的に生成されたサンプルを使用して、教師付き機械学習をサポートし、結果のモデルに堅牢性を追加し、ラベル付きデータの可用性の制限を考慮できる。
デジタル図書館における関係分類に合成データアプローチを適用し,評価し,既存のメタデータから推測するに足らず,デジタル図書館に共通な関係性を持つ人工書を生成する。
書籍間の全部関係の分類において,合成データはディープニューラルネットワーク分類器を91%向上させることがわかった。
さらに、完全人工学習データから有用な新しいテキスト関係クラスを学ぶための合成データの能力についても検討する。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - From Measurement Instruments to Data: Leveraging Theory-Driven Synthetic Training Data for Classifying Social Constructs [2.0591508284285376]
理論駆動型総合学習データの社会構造測定における可能性について検討する。
政治トピック分類におけるラベル付きデータの必要性を低減するために,合成データが極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T14:42:23Z) - Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。