論文の概要: A Data Fusion Framework for Multi-Domain Morality Learning
- arxiv url: http://arxiv.org/abs/2304.02144v1
- Date: Tue, 4 Apr 2023 22:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:06:52.517766
- Title: A Data Fusion Framework for Multi-Domain Morality Learning
- Title(参考訳): マルチドメインモラル学習のためのデータ融合フレームワーク
- Authors: Siyi Guo, Negar Mokhberian, Kristina Lerman
- Abstract要約: 複数の異種データセットをトレーニングするためのデータ融合フレームワークについて述べる。
提案フレームワークは,道徳的推論における先行研究と比較して,異なるデータセットにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 3.0671872389903547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be trained to recognize the moral sentiment of text,
creating new opportunities to study the role of morality in human life. As
interest in language and morality has grown, several ground truth datasets with
moral annotations have been released. However, these datasets vary in the
method of data collection, domain, topics, instructions for annotators, etc.
Simply aggregating such heterogeneous datasets during training can yield models
that fail to generalize well. We describe a data fusion framework for training
on multiple heterogeneous datasets that improve performance and
generalizability. The model uses domain adversarial training to align the
datasets in feature space and a weighted loss function to deal with label
shift. We show that the proposed framework achieves state-of-the-art
performance in different datasets compared to prior works in morality
inference.
- Abstract(参考訳): 言語モデルは、テキストの道徳的感情を認識し、人間の人生における道徳の役割を研究する新しい機会を生み出すために訓練することができる。
言語や道徳への関心が高まるにつれて、モラルアノテーションを備えたいくつかの根拠真理データセットがリリースされた。
しかし、これらのデータセットは、データ収集、ドメイン、トピック、アノテータの指示などの方法によって異なる。
このような異種データセットをトレーニング中に集約するだけで、うまく一般化できないモデルが得られる。
本稿では,複数の異種データセットをトレーニングするデータ融合フレームワークについて述べる。
このモデルは、ラベルシフトに対処するために、データ集合を特徴空間に整列させるためにドメイン逆トレーニングと重み付き損失関数を使用する。
提案手法は,従来の道徳的推論手法と比較して,異なるデータセットにおける最先端性能を実現する。
関連論文リスト
- Automated Label Unification for Multi-Dataset Semantic Segmentation with GNNs [48.406728896785296]
本稿では,グラフニューラルネットワークを用いて,複数のデータセットにまたがる統一ラベル空間を自動構築する手法を提案する。
従来の手法と異なり,本手法は手動の注釈や分類の調整を必要とせず,シームレスな訓練を容易にする。
論文 参考訳(メタデータ) (2024-07-15T08:42:10Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Cross-Domain Generalization and Knowledge Transfer in Transformers
Trained on Legal Data [0.0]
異なる型システムで注釈付けされたデータセット間で知識を伝達する事前学習言語モデルの解析を行う。
文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。
論文 参考訳(メタデータ) (2021-12-15T04:23:14Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - A Note on Data Biases in Generative Models [16.86600007830682]
生成モデルの性能に及ぼすデータセット品質の影響について検討する。
生成モデルによりデータセットの社会的バイアスがどのように再現されるかを示す。
本稿では,写真,油絵,アニメなどの多様なデータセット間の非ペア転送を通じて,クリエイティブな応用を提示する。
論文 参考訳(メタデータ) (2020-12-04T10:46:37Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。