論文の概要: Exploring Distributional Shifts in Large Language Models for Code
Analysis
- arxiv url: http://arxiv.org/abs/2303.09128v2
- Date: Tue, 5 Dec 2023 19:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:27:14.263754
- Title: Exploring Distributional Shifts in Large Language Models for Code
Analysis
- Title(参考訳): コード解析のための大規模言語モデルにおける分布シフトの探索
- Authors: Shushan Arakelyan, Rocktim Jyoti Das, Yi Mao and Xiang Ren
- Abstract要約: コード機能を持つ3つの大規模言語モデルがどのようにドメイン外データに一般化するかを検討する。
コード要約とコード生成という,2つの基本的なアプリケーションについて検討する。
複数のドメインに適応したモデルが同時に、単一のドメインに適応したモデルと同等に動作していることが分かりました。
- 参考スコア(独自算出の注目度): 36.73114441988879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically study how three large language models with code
capabilities - CodeT5, Codex, and ChatGPT - generalize to out-of-domain data.
We consider two fundamental applications - code summarization, and code
generation. We split data into domains following its natural boundaries - by an
organization, by a project, and by a module within the software project. We
establish that samples from each new domain present all the models with a
significant challenge of distribution shift. We study how established methods
adapt models to better generalize to new domains. Our experiments show that
while multitask learning alone is a reasonable baseline, combining it with
few-shot finetuning on examples retrieved from training data can achieve very
strong performance. Moreover, this solution can outperform direct finetuning
for very low-data scenarios. Finally, we consider variations of this approach
to create a more broadly applicable method to adapt to multiple domains at
once. We find that for code generation, a model adapted to multiple domains
simultaneously performs on par with those adapted to a single domain
- Abstract(参考訳): CodeT5、Codex、ChatGPTの3つの大きな言語モデルがどのようにドメイン外データに一般化するかを体系的に研究する。
コード要約とコード生成という,2つの基本的なアプリケーションについて検討する。
私たちはデータを、組織、プロジェクト、そしてソフトウェアプロジェクト内のモジュールによって、自然な境界に沿ってドメインに分割します。
各新領域からのサンプルが,分布シフトの重大な課題を持つすべてのモデルを示すことを確認した。
確立された手法がモデルにどのように適応して新しい領域をより一般化するかを検討する。
私たちの実験では、マルチタスク学習だけでは合理的なベースラインであるものの、トレーニングデータから取得したサンプルのわずかな微調整と組み合わせることで、非常に強力なパフォーマンスを達成できることが示されています。
さらに、このソリューションは、非常に低データのシナリオで直接微調整より優れている。
最後に、このアプローチのバリエーションを検討し、複数のドメインに一度に適応するより広い適用方法を提案する。
コード生成では、複数のドメインに適応したモデルが1つのドメインに適応したモデルと同等に動作することが分かっています。
関連論文リスト
- Virtual Classification: Modulating Domain-Specific Knowledge for
Multidomain Crowd Counting [67.38137379297717]
マルチドメインのクラウドカウントは、複数の多様なデータセットの一般的なモデルを学ぶことを目的としている。
ディープネットワークは、ドメインバイアスとして知られるすべてのドメインではなく、支配的なドメインの分布をモデル化することを好む。
マルチドメイン群カウントにおけるドメインバイアス問題を処理するために,MDKNet(Modulating Domain-specific Knowledge Network)を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:49:04Z) - Continuous Unsupervised Domain Adaptation Using Stabilized
Representations and Experience Replay [23.871860648919593]
本稿では,教師なしドメイン適応(UDA)問題に継続学習(CL)シナリオで対処するアルゴリズムを提案する。
我々の解は、学習した内部分布を安定化し、新しい領域におけるモデル一般化を強化することに基づいている。
経験リプレイを活用して,新たなタスクを学習する際に獲得した知識をモデルが失う,破滅的な忘れ事の問題を克服する。
論文 参考訳(メタデータ) (2024-01-31T05:09:14Z) - Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。
TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。
本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T20:42:47Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - ME-D2N: Multi-Expert Domain Decompositional Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメインのFew-Shot Learningは、異なるドメインにわたるFew-Shot Learning問題に対処することを目的としている。
本稿では,ME-D2N(Multi-Expert Domain Decompositional Network)を技術的に貢献する。
本稿では,学生モデルを2つの領域関連部分に分解する新しい領域分解モジュールを提案する。
論文 参考訳(メタデータ) (2022-10-11T09:24:47Z) - Learning to Generalize across Domains on Single Test Samples [126.9447368941314]
単体テストサンプルでドメインをまたいで一般化することを学ぶ。
変分ベイズ推論問題として単検体への適応を定式化する。
我々のモデルは、ドメインの一般化のための複数のベンチマークにおいて、最先端のメソッドよりも少なくとも同等で、より優れたパフォーマンスを達成します。
論文 参考訳(メタデータ) (2022-02-16T13:21:04Z) - Boosting Binary Masks for Multi-Domain Learning through Affine
Transformations [49.25451497933657]
マルチドメイン学習の目標は、すべてのドメインでタスクを実行する単一のモデルを作成することです。
最近の研究は、学習されたバイナリ変数を通して、与えられた元のconv-netの内部重みをマスキングすることでこの問題に対処できることを示した。
元のネットワークパラメータのアフィン変換によるマルチドメイン学習のためのバイナリマスクベースのモデルの一般定式化を提供する。
論文 参考訳(メタデータ) (2021-03-25T14:54:37Z) - StandardGAN: Multi-source Domain Adaptation for Semantic Segmentation of
Very High Resolution Satellite Images by Data Standardization [6.481759968656932]
本研究では,マルチソース領域適応問題に対処する。
提案手法,すなわち,標準GANは,各ソースとターゲットドメインを標準化し,すべてのデータが類似したデータ分布を持つようにする。
1つは1つの国の複数の都市で構成され、もう1つは異なる国の複数の都市を含んでいる。
論文 参考訳(メタデータ) (2020-04-14T10:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。