論文の概要: Bridging Topic, Domain, and Language Shifts: An Evaluation of
Comprehensive Out-of-Distribution Scenarios
- arxiv url: http://arxiv.org/abs/2309.08316v1
- Date: Fri, 15 Sep 2023 11:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:05:31.099315
- Title: Bridging Topic, Domain, and Language Shifts: An Evaluation of
Comprehensive Out-of-Distribution Scenarios
- Title(参考訳): ブリッジングトピック、ドメイン、言語シフト:包括的アウト・オブ・ディストリビューションシナリオの評価
- Authors: Andreas Waldis and Iryna Gurevych
- Abstract要約: 言語モデル(LM)は、トレーニングデータとテストデータが独立し、同一に分散されたID(In-distriion)シナリオで優れている。
しかし、それらの性能は引数マイニングのような現実世界のアプリケーションでは劣化することが多い。
ソーシャルメディア・ドメインやソーラー・エナジー(ソーラー・エナジー)といった特定のテスト事例を意図的に保持することで、こうした分散シフトをシミュレートする。
特に、列車とテストの分割が主に意味的に異なる場合において、プロンプトベースの微調整の優れたパフォーマンスが得られます。
ラベル分布における重度不一致を具現化したデータ学習における課題に対するインコンテキスト学習は,プロンプトベースやバニラファインタニングよりも効果的である
- 参考スコア(独自算出の注目度): 67.08125191843433
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language models (LMs) excel in in-distribution (ID) scenarios where train and
test data are independent and identically distributed. However, their
performance often degrades in real-world applications like argument mining.
Such degradation happens when new topics emerge, or other text domains and
languages become relevant. To assess LMs' generalization abilities in such
out-of-distribution (OOD) scenarios, we simulate such distribution shifts by
deliberately withholding specific instances for testing, as from the social
media domain or the topic Solar Energy.
Unlike prior studies focusing on specific shifts and metrics in isolation, we
comprehensively analyze OOD generalization. We define three metrics to pinpoint
generalization flaws and propose eleven classification tasks covering topic,
domain, and language shifts. Overall, we find superior performance of
prompt-based fine-tuning, notably when train and test splits primarily differ
semantically. Simultaneously, in-context learning is more effective than
prompt-based or vanilla fine-tuning for tasks when training data embodies heavy
discrepancies in label distribution compared to testing data. This reveals a
crucial drawback of gradient-based learning: it biases LMs regarding such
structural obstacles.
- Abstract(参考訳): 言語モデル(lms)は、トレーニングデータとテストデータが独立かつ同一に分散される、分散内(id)シナリオに優れている。
しかし、それらのパフォーマンスはしばしば、引数マイニングのような実世界のアプリケーションで劣化する。
このような劣化は、新しいトピックが出現したり、他のテキストドメインや言語が関係すると起こる。
このようなアウト・オブ・ディストリビューション(OOD)シナリオにおけるLMの一般化能力を評価するために、ソーシャルメディア領域や太陽エネルギーといった特定のテスト事例を意図的に保持することで、そのような分散シフトをシミュレートする。
特定のシフトとメトリクスを分離した以前の研究とは異なり、OOD一般化を包括的に分析する。
一般化の欠陥を特定できるメトリクスを3つ定義し,トピック,ドメイン,言語シフトをカバーする11の分類タスクを提案する。
全体としては、特に列車とテストの分割が主に意味的に異なる場合において、プロンプトベースの微調整の優れた性能を見出す。
同時に、インコンテキスト学習は、トレーニングデータがテストデータと比較してラベル分布に大きな差異を具現化する場合、タスクのプロンプトベースやバニラファインタニングよりも効果的である。
これは勾配に基づく学習の重大な欠点である:そのような構造的障害に関してlmsを偏らせる。
関連論文リスト
- Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey [18.570066068280212]
大規模言語モデル(LLM)は、自然言語処理だけでなく、より広範なアプリケーションでもその効果を実証している。
本調査は,LSMの文脈下での異常検出とOOD検出の問題点に焦点を当てた。
LLMが果たす役割に基づいて,既存のアプローチを2つのクラスに分類する新たな分類法を提案する。
論文 参考訳(メタデータ) (2024-09-03T15:22:41Z) - Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、マシンラーニングモデルの信頼性とセキュリティを確保するための重要なタスクである。
本稿では,ODPCと呼ばれる新しい手法を提案し,大規模言語モデルを用いてOODピア・セマンティクスのクラスを生成する。
5つのベンチマークデータセットの実験により,提案手法は最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-20T06:04:05Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Data Distribution Bottlenecks in Grounding Language Models to Knowledge
Bases [9.610231090476857]
言語モデル(LM)は、自然言語と形式言語の両方を理解し、生成する際、すでに顕著な能力を示している。
本論文は,知識ベース質問応答(KBQA)を課題として,LMが直面する課題を明らかにすることを目的とした実験的研究である。
実験の結果,提案手法を応用しても,様々な次元において,先進的な小・大規模言語モデルの性能が低下していることが判明した。
論文 参考訳(メタデータ) (2023-09-15T12:06:45Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Pseudo-OOD training for robust language models [78.15712542481859]
OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。
In-distribution(IND)データを用いて擬似OODサンプルを生成するPOORE-POORE-POSthoc pseudo-Ood Regularizationを提案する。
我々は3つの現実世界の対話システムに関する枠組みを広く評価し、OOD検出における新たな最先端技術を実現した。
論文 参考訳(メタデータ) (2022-10-17T14:32:02Z) - Rethinking Machine Learning Robustness via its Link with the
Out-of-Distribution Problem [16.154434566725012]
本稿では,機械学習モデルの逆例に対する感受性の原因について検討する。
本稿では, 逆方向と自然方向の両方に反するOOD一般化法を提案する。
われわれのアプローチは、OODの敵入力に対する堅牢性を一貫して改善し、最先端の防御よりも優れています。
論文 参考訳(メタデータ) (2022-02-18T00:17:23Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。