論文の概要: Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data
- arxiv url: http://arxiv.org/abs/2407.01937v1
- Date: Tue, 2 Jul 2024 04:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:43:59.616209
- Title: Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data
- Title(参考訳): 効率的な共感:共感データの効率的かつ効果的な選択に向けて
- Authors: Linzhuang Sun, Hao Liang, Jingxuan Wei, Linkun Sun, Bihui Yu, Bin Cui, Wentao Zhang,
- Abstract要約: 感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。
我々の訓練された感性モデルは、最先端(SoTA)の性能を効率的に達成する。
感度と合理性データをMoE構造と組み合わせることで,さらに高い性能を実現する。
- 参考スコア(独自算出の注目度): 32.483540066357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capability has become a crucial prerequisite. Consequently, managing and understanding large-scale video datasets has gained increasing importance. However, empathetic data are typically trained without any quality selection, leading to inefficient data usage and wasted computational resources. Additionally, using raw data can result in low performance in empathetic dialogues. In this work, we present Efficient-Empathy, a sensibility and rationality score-based data selection algorithm that automatically selects sensibility and rationality data while discarding low-quality data. With only the sensibility data (59% of the full dataset), our trained sensibility model efficiently achieves state-of-the-art (SoTA) performance. Furthermore, with multiple data selection hyperparameters, the sensibility model demonstrates SoTA performance, showcasing the robustness of our method. By integrating sensibility and rationality data with a MoE structure, we achieve even higher performance, demonstrating the effectiveness of our Efficient-Empathy algorithm.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の急速な進歩に伴い,共感的応答能力の向上が重要視されている。
その結果,大規模ビデオデータセットの管理と理解の重要性が高まっている。
しかし、共感的データは一般に品質の選択なしに訓練され、非効率なデータ利用と計算資源の浪費につながる。
さらに、生データを使用することで共感的対話の性能が低下する可能性がある。
本研究では,低品質データを捨てつつ,感性・合理性データを自動的に選択する,感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。
センシティビリティデータ(全データセットの59%)だけで、トレーニングされたセンシティビリティモデルは、最先端(SoTA)のパフォーマンスを効率的に達成できます。
さらに、複数のデータ選択ハイパーパラメーターを用いて、感性モデルによりSoTAの性能を実証し、本手法の堅牢性を示す。
感度と合理性データをMoE構造と組み合わせることで、より高い性能を実現し、効率的な共感アルゴリズムの有効性を実証する。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Synth-Empathy: Towards High-Quality Synthetic Empathy Data [23.891966228508476]
Synth-Empathyは、高品質な共感データを自動的に生成し、低品質なデータを破棄するパイプラインである。
データ量と品質のトレードオフを示し、共感的なデータ生成と選択に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-31T15:12:24Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - Is More Data Better? Re-thinking the Importance of Efficiency in Abusive
Language Detection with Transformers-Based Active Learning [13.369630848913305]
変圧器をベースとした能動学習は,高い効率性を維持しつつ,効率を大幅に向上させる,有望な手法であることを示す。
このアプローチでは、完全なデータセット上でのトレーニングに相当するパフォーマンスに到達するには、ラベル付きデータのごく一部が必要である。
論文 参考訳(メタデータ) (2022-09-21T08:47:06Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Unsupervised Learning of slow features for Data Efficient Regression [15.73372211126635]
本稿では、遅延表現に時間的類似性制約を適用した$beta$-VAEの拡張である、遅い変分オートエンコーダ(S-VAE)を提案する。
合成2次元球追跡データセットと、最近の学習環境からのデータセットとDeepMind Lab環境から生成されたデータセットを用いて、下流タスクのデータ効率に対する3つの手法を評価する。
論文 参考訳(メタデータ) (2020-12-11T12:19:45Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。