論文の概要: Word Matters: What Influences Domain Adaptation in Summarization?
- arxiv url: http://arxiv.org/abs/2406.14828v1
- Date: Fri, 21 Jun 2024 02:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 15:02:37.061871
- Title: Word Matters: What Influences Domain Adaptation in Summarization?
- Title(参考訳): 単語の問題:ドメイン適応が要約にどのような影響を及ぼすか?
- Authors: Yinghao Li, Siyu Miao, Heyan Huang, Yang Gao,
- Abstract要約: 本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討する。
本稿では,生成的要約の学習難しさとして,データセット学習の難しさの定量化を提案する。
実験により,データセット学習の難易度を考慮すると,要約タスクにおけるドメイン間オーバーラップと性能向上が近似線形関係を示すことがわかった。
- 参考スコア(独自算出の注目度): 43.7010491942323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain adaptation aims to enable Large Language Models (LLMs) to generalize domain datasets unseen effectively during the training phase. However, factors such as the size of the model parameters and the scale of training data are general influencers and do not reflect the nuances of domain adaptation performance. This paper investigates the fine-grained factors affecting domain adaptation performance, analyzing the specific impact of `words' in training data on summarization tasks. We propose quantifying dataset learning difficulty as the learning difficulty of generative summarization, which is determined by two indicators: word-based compression rate and abstraction level. Our experiments conclude that, when considering dataset learning difficulty, the cross-domain overlap and the performance gain in summarization tasks exhibit an approximate linear relationship, which is not directly related to the number of words. Based on this finding, predicting a model's performance on unknown domain datasets is possible without undergoing training.
- Abstract(参考訳): ドメイン適応は、Large Language Models (LLM) が、トレーニングフェーズ中に見えないドメインデータセットを効果的に一般化できるようにすることを目的としている。
しかし、モデルパラメータのサイズやトレーニングデータの規模などの要因は一般的なインフルエンサーであり、ドメイン適応性能のニュアンスを反映していない。
本稿では,ドメイン適応性能に影響を及ぼすきめ細かな要因について検討し,学習データ中の「単語」が要約タスクに与える影響を分析した。
本稿では,単語ベース圧縮率と抽象化レベルという2つの指標によって決定される生成要約の学習難度として,データセット学習難度を定量化する手法を提案する。
実験の結果,データセット学習の難しさを考慮すると,要約タスクにおけるドメイン間重複や性能向上は,単語数と直接関係のない近似線形関係を示すことがわかった。
この発見に基づいて、未知のドメインデータセット上でモデルのパフォーマンスを予測することは、トレーニングを行うことなく可能である。
関連論文リスト
- Evaluating Data Influence in Meta Learning [6.757424294625179]
本稿では,2段階最適化フレームワークにおけるメタラーニングのための一般的なデータ属性評価フレームワークを提案する。
このフレームワークは、内部トレーニングプロセスと外部トレーニングプロセスの両方にわたるデータコントリビューションを包括的にモデル化する。
論文 参考訳(メタデータ) (2025-01-27T11:14:04Z) - Quantifying the Importance of Data Alignment in Downstream Model Performance [1.2564343689544843]
本研究では,Task2Vecに基づくアライメント係数を用いて,トレーニングデータと評価データとのアライメントが下流の性能に与える影響を定量化する。
モデルのトレーニングと評価データのアライメント係数と,各下流タスクにおけるモデルの損失/複雑度との間には,強い負の相関関係が認められた。
論文 参考訳(メタデータ) (2025-01-14T23:59:23Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Most Influential Subset Selection: Challenges, Promises, and Beyond [9.479235005673683]
我々は,最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的とした,MISS(Most Influential Subset Selection)問題について検討する。
我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。
本稿では,これらを反復的に適用した適応バージョンが,試料間の相互作用を効果的に捕捉できることを実証する。
論文 参考訳(メタデータ) (2024-09-25T20:00:23Z) - Sexism Detection on a Data Diet [14.899608305188002]
モデルのトレーニング中に、インフルエンススコアを利用してデータポイントの重要性を推定する方法を示します。
ドメイン外の3つのデータセット上で異なるプルーニング戦略を用いて、データプルーニングに基づいてトレーニングされたモデル性能を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:39:54Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Data-Centric Machine Learning in the Legal Domain [0.2624902795082451]
本稿では,データセットの変化がモデルの性能に与える影響について考察する。
法律ドメインから公開されている3つのデータセットを用いて,そのサイズ,列車/テストの分割,および人間のラベル付け精度がパフォーマンスに与える影響について検討する。
観察された効果は、特にクラスごとのパフォーマンスを考慮した場合、驚くほど顕著である。
論文 参考訳(メタデータ) (2022-01-17T23:05:14Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。