Fugu-MT 論文翻訳(概要): Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data

論文の概要: Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data

arxiv url: http://arxiv.org/abs/2407.01937v2
Date: Tue, 9 Jul 2024 14:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 22:42:25.649107
Title: Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data
Title（参考訳）: 効率的な共感:共感データの効率的かつ効果的な選択に向けて
Authors: Linzhuang Sun, Hao Liang, Jingxuan Wei, Linkun Sun, Bihui Yu, Bin Cui, Wentao Zhang,
Abstract要約: 感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。我々の訓練された感性モデルは、最先端(SoTA)の性能を効率的に達成する。感度と合理性データをMoE構造と組み合わせることで,さらに高い性能を実現する。
参考スコア（独自算出の注目度）: 32.483540066357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, with the rapid advancements in large language models (LLMs), achieving excellent empathetic response capability has become a crucial prerequisite. Consequently, managing and understanding large-scale video datasets has gained increasing importance. However, empathetic data are typically trained without any quality selection, leading to inefficient data usage and wasted computational resources. Additionally, using raw data can result in low performance in empathetic dialogues. In this work, we present Efficient-Empathy, a sensibility and rationality score-based data selection algorithm that automatically selects sensibility and rationality data while discarding low-quality data. With only the sensibility data (59% of the full dataset), our trained sensibility model efficiently achieves state-of-the-art (SoTA) performance. Furthermore, with multiple data selection hyperparameters, the sensibility model demonstrates SoTA performance, showcasing the robustness of our method. By integrating sensibility and rationality data with a MoE structure, we achieve even higher performance, demonstrating the effectiveness of our Efficient-Empathy algorithm.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の急速な進歩に伴い,共感的応答能力の向上が重要視されている。その結果,大規模ビデオデータセットの管理と理解の重要性が高まっている。しかし、共感的データは一般に品質の選択なしに訓練され、非効率なデータ利用と計算資源の浪費につながる。さらに、生データを使用することで共感的対話の性能が低下する可能性がある。本研究では,低品質データを捨てつつ,感性・合理性データを自動的に選択する,感性・合理性スコアに基づくデータ選択アルゴリズムであるEfficient-Empathyを提案する。センシティビリティデータ(全データセットの59%)だけで、トレーニングされたセンシティビリティモデルは、最先端(SoTA)のパフォーマンスを効率的に達成できます。さらに、複数のデータ選択ハイパーパラメーターを用いて、感性モデルによりSoTAの性能を実証し、本手法の堅牢性を示す。感度と合理性データをMoE構造と組み合わせることで、より高い性能を実現し、効率的な共感アルゴリズムの有効性を実証する。

関連論文リスト

Synthetic Industrial Object Detection: GenAI vs. Feature-Based Methods [5.278929538141005]
我々は、特徴ベースの手法、生成AI(GenAI)、古典的なレンダリングアプローチを含む、ドメインランダム化(DR)およびドメイン適応(DA)テクニックをベンチマークする。本評価では,低レベルの特徴アライメントと高レベルの特徴アライメントの有効性,および実世界の文脈から生成されたプロンプトによって誘導される拡散に基づくDA法について検討する。その結果、十分な可変性を持つレンダリングベースデータが、輝度ベースや知覚的ハッシュフィルタリングといったよりシンプルな特徴ベースのメソッドとして利用可能である場合、精度と資源効率の両方においてより複雑なGenAIベースのアプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-28T14:51:08Z)
Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々は、ポイントワイドV情報(PVI)に基づく効果的なデータ削減戦略を提案する。実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。我々は,これまで英語のデータセットに限られていたPVIフレームワークを,さまざまな自然言語処理(NLP)タスクやベースモデルに適用した。
論文参考訳（メタデータ） (2025-06-19T06:59:19Z)
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文参考訳（メタデータ） (2024-11-23T17:35:23Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Targeted synthetic data generation for tabular data via hardness characterization [0.0]
本稿では,高価値な学習点のみを生成する簡単な拡張パイプラインを提案する。提案手法はサンプル外予測の品質を向上し,非対象手法と比較して計算効率が向上する。
論文参考訳（メタデータ） (2024-10-01T14:54:26Z)
Synth-Empathy: Towards High-Quality Synthetic Empathy Data [23.891966228508476]
Synth-Empathyは、高品質な共感データを自動的に生成し、低品質なデータを破棄するパイプラインである。データ量と品質のトレードオフを示し、共感的なデータ生成と選択に関する洞察を提供する。
論文参考訳（メタデータ） (2024-07-31T15:12:24Z)
Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文参考訳（メタデータ） (2024-04-30T13:39:26Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文参考訳（メタデータ） (2023-11-21T17:03:21Z)
Is More Data Better? Re-thinking the Importance of Efficiency in Abusive Language Detection with Transformers-Based Active Learning [13.369630848913305]
変圧器をベースとした能動学習は,高い効率性を維持しつつ,効率を大幅に向上させる,有望な手法であることを示す。このアプローチでは、完全なデータセット上でのトレーニングに相当するパフォーマンスに到達するには、ラベル付きデータのごく一部が必要である。
論文参考訳（メタデータ） (2022-09-21T08:47:06Z)
Compactness Score: A Fast Filter Method for Unsupervised Feature Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文参考訳（メタデータ） (2022-01-31T13:01:37Z)
Understanding Memorization from the Perspective of Optimization via Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。 i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文参考訳（メタデータ） (2021-12-16T11:34:23Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。