Fugu-MT 論文翻訳(概要): Exploring Distributional Shifts in Large Language Models for Code Analysis

論文の概要: Exploring Distributional Shifts in Large Language Models for Code Analysis

arxiv url: http://arxiv.org/abs/2303.09128v1
Date: Thu, 16 Mar 2023 07:45:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 16:27:02.075462
Title: Exploring Distributional Shifts in Large Language Models for Code Analysis
Title（参考訳）: コード解析のための大規模言語モデルにおける分布シフトの探索
Authors: Shushan Arakelyan, Rocktim Jyoti Das, Yi Mao and Xiang Ren
Abstract要約: コードのための2つの大きな言語モデル(CodeT5とCodex)の能力を研究し、ドメイン外のデータに一般化する。私たちはデータを、その自然な境界に沿って、組織、プロジェクト、そしてソフトウェアプロジェクト内のモジュールによって、ドメインに分割しました。複数のドメインに適応したモデルが、各ドメインに適応したモデルと同時に動作していることが分かりました。
参考スコア（独自算出の注目度）: 21.347629008312293
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We systematically study the capacity of two large language models for code - CodeT5 and Codex - to generalize to out-of-domain data. In this study, we consider two fundamental applications - code summarization, and code generation. We split data into domains following its natural boundaries - by an organization, by a project, and by a module within the software project. This makes recognition of in-domain vs out-of-domain data at the time of deployment trivial. We establish that samples from each new domain present both models with a significant challenge of distribution shift. We study how well different established methods can adapt models to better generalize to new domains. Our experiments show that while multitask learning alone is a reasonable baseline, combining it with few-shot finetuning on examples retrieved from training data can achieve very strong performance. In fact, according to our experiments, this solution can outperform direct finetuning for very low-data scenarios. Finally, we consider variations of this approach to create a more broadly applicable method to adapt to multiple domains at once. We find that in the case of code generation, a model adapted to multiple domains simultaneously performs on par with those adapted to each domain individually.
Abstract（参考訳）: CodeCodeT5とCodexの2つの大きな言語モデルの能力を体系的に研究し、ドメイン外のデータに一般化する。本研究では,コード要約とコード生成という2つの基本的応用について考察する。私たちはデータを、組織、プロジェクト、そしてソフトウェアプロジェクト内のモジュールによって、自然な境界に沿ってドメインに分割します。これにより、デプロイ時にドメイン内データとドメイン外データの認識が容易になる。各新領域のサンプルは,分布シフトの大きな課題を伴って,両方のモデルが存在することを確認した。確立された異なる手法がモデルにどのように適応し、新しい領域をより一般化するかを考察する。私たちの実験では、マルチタスク学習だけでは合理的なベースラインであるものの、トレーニングデータから取得したサンプルのわずかな微調整と組み合わせることで、非常に強力なパフォーマンスを達成できることが示されています。実際、我々の実験によると、このソリューションは、非常に低データのシナリオで直接微調整より優れている。最後に、このアプローチのバリエーションを検討し、複数のドメインに一度に適応するより広い適用方法を提案する。コード生成の場合、複数のドメインに適応したモデルは、各ドメインに個別に適応したモデルと同等の性能を発揮することが分かりました。

関連論文リスト

On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T07:46:21Z)
Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文参考訳（メタデータ） (2024-09-19T21:45:13Z)
Multi-BERT: Leveraging Adapters and Prompt Tuning for Low-Resource Multi-Domain Adaptation [14.211024633768986]
テキストのボリュームと多様性の急速な拡大は、マルチドメイン設定において重大な課題を生じさせる。従来のアプローチでは、複数のドメインに統一モデルを採用するか、各ドメインに個別モデルを使用するかのいずれかが、しばしば重大な制限を課している。本稿では,複数のドメイン固有パラメータからなる1つのコアモデルからなる新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-04-02T22:15:48Z)
Virtual Classification: Modulating Domain-Specific Knowledge for Multidomain Crowd Counting [67.38137379297717]
マルチドメインのクラウドカウントは、複数の多様なデータセットの一般的なモデルを学ぶことを目的としている。ディープネットワークは、ドメインバイアスとして知られるすべてのドメインではなく、支配的なドメインの分布をモデル化することを好む。マルチドメイン群カウントにおけるドメインバイアス問題を処理するために,MDKNet(Modulating Domain-specific Knowledge Network)を提案する。
論文参考訳（メタデータ） (2024-02-06T06:49:04Z)
Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文参考訳（メタデータ） (2023-02-06T08:11:16Z)
Multi-Domain Long-Tailed Learning by Augmenting Disentangled Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。 TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文参考訳（メタデータ） (2022-10-25T21:54:26Z)
Learning to Generalize across Domains on Single Test Samples [126.9447368941314]
単体テストサンプルでドメインをまたいで一般化することを学ぶ。変分ベイズ推論問題として単検体への適応を定式化する。我々のモデルは、ドメインの一般化のための複数のベンチマークにおいて、最先端のメソッドよりも少なくとも同等で、より優れたパフォーマンスを達成します。
論文参考訳（メタデータ） (2022-02-16T13:21:04Z)
Boosting Binary Masks for Multi-Domain Learning through Affine Transformations [49.25451497933657]
マルチドメイン学習の目標は、すべてのドメインでタスクを実行する単一のモデルを作成することです。最近の研究は、学習されたバイナリ変数を通して、与えられた元のconv-netの内部重みをマスキングすることでこの問題に対処できることを示した。元のネットワークパラメータのアフィン変換によるマルチドメイン学習のためのバイナリマスクベースのモデルの一般定式化を提供する。
論文参考訳（メタデータ） (2021-03-25T14:54:37Z)
StandardGAN: Multi-source Domain Adaptation for Semantic Segmentation of Very High Resolution Satellite Images by Data Standardization [6.481759968656932]
本研究では,マルチソース領域適応問題に対処する。提案手法,すなわち,標準GANは,各ソースとターゲットドメインを標準化し,すべてのデータが類似したデータ分布を持つようにする。 1つは1つの国の複数の都市で構成され、もう1つは異なる国の複数の都市を含んでいる。
論文参考訳（メタデータ） (2020-04-14T10:16:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。