論文の概要: Improving User Controlled Table-To-Text Generation Robustness
- arxiv url: http://arxiv.org/abs/2302.09820v1
- Date: Mon, 20 Feb 2023 07:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 16:19:06.909837
- Title: Improving User Controlled Table-To-Text Generation Robustness
- Title(参考訳): ユーザ制御テーブル-テキスト生成ロバストネスの改善
- Authors: Hanxu Hu, Yunqing Liu, Zhongyi Yu and Laura Perez-Beltrachini
- Abstract要約: ユーザ制御テーブル・ツー・テキスト生成について検討する。
列車データと同じ分布から得られるテストセットでは,モデルの性能は良好に向上するが,現実的なノイズの多いユーザ入力で評価すると,その性能は低下する。
そこで本研究では,ユーザシミュレーションによる雑音選択を付加した微調整方式を提案する。
- 参考スコア(独自算出の注目度): 3.5939555573102853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we study user controlled table-to-text generation where users
explore the content in a table by selecting cells and reading a natural
language description thereof automatically produce by a natural language
generator. Such generation models usually learn from carefully selected cell
combinations (clean cell selections); however, in practice users may select
unexpected, redundant, or incoherent cell combinations (noisy cell selections).
In experiments, we find that models perform well on test sets coming from the
same distribution as the train data but their performance drops when evaluated
on realistic noisy user inputs. We propose a fine-tuning regime with additional
user-simulated noisy cell selections. Models fine-tuned with the proposed
regime gain 4.85 BLEU points on user noisy test cases and 1.4 on clean test
cases; and achieve comparable state-of-the-art performance on the ToTTo
dataset.
- Abstract(参考訳): 本研究では,ユーザがテーブル内のコンテンツを検索するテーブル・ツー・テキスト生成について,セルを選択し,自然言語生成装置によって自動生成される自然言語記述を読み取ることによって検討する。
このような生成モデルは、通常は慎重に選択された細胞の組み合わせ(クリーンな細胞選択)から学習するが、実際には、予期せぬ、冗長な、あるいは不整合な細胞の組み合わせ(ノイズの多い細胞選択)を選択することができる。
実験では、モデルが列車データと同じ分布から来るテストセットでうまく機能するが、実際の騒がしいユーザ入力で評価すると性能が低下することがわかった。
本稿では,ユーザシミュレーションによるノイズセル選択を付加した微調整方式を提案する。
提案されたシステムで微調整されたモデルは、ユーザノイズテストケースで4.85 BLEUポイント、クリーンテストケースで1.4、ToTToデータセットで同等の最先端パフォーマンスを達成する。
関連論文リスト
- A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Federated Privacy-preserving Collaborative Filtering for On-Device Next
App Prediction [52.16923290335873]
本稿では,モバイルデバイス使用時の次のアプリの起動を予測するための新しいSeqMFモデルを提案する。
古典行列分解モデルの構造を修正し、学習手順を逐次学習に更新する。
提案手法のもうひとつの要素は,ユーザからリモートサーバへの送信データの保護を保証する,新たなプライバシメカニズムである。
論文 参考訳(メタデータ) (2023-02-05T10:29:57Z) - Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。
私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文 参考訳(メタデータ) (2022-12-20T08:29:18Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - A Single Example Can Improve Zero-Shot Data Generation [7.237231992155901]
意図分類のサブタスクは、実験と評価のために広範囲で柔軟なデータセットを必要とする。
本稿では,データセットの収集にテキスト生成手法を提案する。
タスク指向発話を生成するための2つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-08-16T09:43:26Z) - TableLab: An Interactive Table Extraction System with Adaptive Deep
Learning [10.260356995275957]
TableLabは、ユーザとモデルがシームレスに連携して高品質の抽出モデルを迅速にカスタマイズするシステムを提供する。
TableLabは最初に、抽出モデルから埋め込みをクラスタリングすることで、同様の構造(テンプレート)を持つテーブルを検出する。
そして、事前訓練されたベースディープラーニングモデルで抽出されたいくつかの代表テーブルの例を選択する。
論文 参考訳(メタデータ) (2021-02-16T20:52:44Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。