Fugu-MT 論文翻訳(概要): Improving Text Relationship Modeling with Artificial Data

論文の概要: Improving Text Relationship Modeling with Artificial Data

arxiv url: http://arxiv.org/abs/2010.14640v1
Date: Tue, 27 Oct 2020 22:04:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 13:07:50.171309
Title: Improving Text Relationship Modeling with Artificial Data
Title（参考訳）: 人工データによるテキスト関係モデリングの改善
Authors: Peter Organisciak, Maggie Ryan
Abstract要約: 本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
参考スコア（独自算出の注目度）: 0.07614628596146598
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data augmentation uses artificially-created examples to support supervised machine learning, adding robustness to the resulting models and helping to account for limited availability of labelled data. We apply and evaluate a synthetic data approach to relationship classification in digital libraries, generating artificial books with relationships that are common in digital libraries but not easier inferred from existing metadata. We find that for classification on whole-part relationships between books, synthetic data improves a deep neural network classifier by 91%. Further, we consider the ability of synthetic data to learn a useful new text relationship class from fully artificial training data.
Abstract（参考訳）: データ拡張は、人工的に生成されたサンプルを使用して、教師付き機械学習をサポートし、結果のモデルに堅牢性を追加し、ラベル付きデータの可用性の制限を考慮できる。デジタル図書館における関係分類に合成データアプローチを適用し,評価し,既存のメタデータから推測するに足らず,デジタル図書館に共通な関係性を持つ人工書を生成する。書籍間の全部関係の分類において,合成データはディープニューラルネットワーク分類器を91%向上させることがわかった。さらに、完全人工学習データから有用な新しいテキスト関係クラスを学ぶための合成データの能力についても検討する。

関連論文リスト

Generative Correlation Manifolds: Generating Synthetic Data with Preserved Higher-Order Correlations [4.551615447454767]
本稿では,合成データを生成する計算効率の良い手法である生成相関マニフォールド(GCM)を紹介する。本手法は,プライバシ保護データ共有,ロバストモデルトレーニング,シミュレーションに応用可能な,合成データ生成への新たなアプローチを提供するものである,と我々は主張する。
論文参考訳（メタデータ） (2025-10-24T16:15:53Z)
Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳（メタデータ） (2024-10-29T17:55:00Z)
From Measurement Instruments to Data: Leveraging Theory-Driven Synthetic Training Data for Classifying Social Constructs [2.0591508284285376]
理論駆動型総合学習データの社会構造測定における可能性について検討する。政治トピック分類におけるラベル付きデータの必要性を低減するために,合成データが極めて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T14:42:23Z)
Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文参考訳（メタデータ） (2024-09-11T17:21:59Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文参考訳（メタデータ） (2022-11-30T10:40:44Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文参考訳（メタデータ） (2020-11-16T21:49:17Z)
Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。私たちのフレームワークは、サンプル間の関係をよく保存します。サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文参考訳（メタデータ） (2020-07-11T10:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。