論文の概要: Entity-Augmented Code Generation
- arxiv url: http://arxiv.org/abs/2312.08976v1
- Date: Thu, 14 Dec 2023 14:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:50:26.050397
- Title: Entity-Augmented Code Generation
- Title(参考訳): entity-augmented コード生成
- Authors: Anton Shapkin, Denis Litvinov, Timofey Bryksin
- Abstract要約: LLMデコーダに直接注入されるスケーラブルなエンティティレトリバーを備えたエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
私たちのモデルは、プロジェクトレベルのコード生成など、いくつかのシナリオで共通のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 5.3022775496405865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current state-of-the-art large language models (LLMs) are effective in
generating high-quality text and encapsulating a broad spectrum of world
knowledge. However, these models often hallucinate during generation and are
not designed to utilize external information sources. To enable requests to the
external knowledge bases, also called knowledge grounding, retrieval-augmented
LLMs were introduced. For now, their applications have largely involved Open
Domain Question Answering, Abstractive Question Answering, and such. In this
paper, we broaden the scope of retrieval-augmented LLMs by venturing into a new
task - code generation using external entities. For this task, we collect and
publish a new dataset for project-level code generation, where the model should
reuse functions defined in the project during generation. As we show, existing
retrieval-augmented LLMs fail to assign relevance scores between similar entity
names, and to mitigate it, they expand entity names with description context
and append it to the input. In practice, due to the limited context size they
can not accommodate the indefinitely large context of the whole project. To
solve this issue, we propose a novel end-to-end trainable architecture with an
scalable entity retriever injected directly into the LLM decoder. We
demonstrate that our model can outperform common baselines in several
scenarios, including project-level code generation, as well as Bash and SQL
scripting.
- Abstract(参考訳): 現在の最先端の大規模言語モデル(LLM)は、高品質なテキストを生成し、幅広い世界の知識をカプセル化するのに有効である。
しかし、これらのモデルは世代ごとに幻覚を起こし、外部情報ソースを利用するように設計されていない。
知識基盤と呼ばれる外部知識ベースへの要求を可能にするため、検索強化LLMを導入した。
今のところ、彼らのアプリケーションには、Open Domain Question Answering、Abstractive Question Answeringなどが含まれる。
本稿では,外部エンティティを用いたコード生成という新たなタスクを考案することで,検索拡張 LLM の範囲を広げる。
このタスクのために、私たちはプロジェクトレベルのコード生成のための新しいデータセットを収集して公開します。
我々が示すように、既存の検索拡張LDMは類似エンティティ名間の関連スコアを割り当てず、それを緩和するために、エンティティ名を記述コンテキストで拡張し、入力に付加する。
実際には、コンテキストサイズが制限されているため、プロジェクト全体の無期限に大きなコンテキストに対応できない。
そこで本研究では,LSMデコーダに直接注入されるスケーラブルなエンティティレトリバーを備えた,エンドツーエンドのトレーニング可能な新しいアーキテクチャを提案する。
私たちのモデルは、プロジェクトレベルのコード生成やBashやSQLスクリプティングなど、いくつかのシナリオで共通ベースラインを上回ります。
関連論文リスト
- Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - Improving Retrieval Augmented Open-Domain Question-Answering with Vectorized Contexts [83.57864140378035]
本稿では,オープンドメイン質問応答タスクにおいて,より長いコンテキストをカバーできる手法を提案する。
コンテキストを効果的にエンコードする小さなエンコーダ言語モデルを利用し、エンコーダは元の入力とクロスアテンションを適用する。
微調整後、2つのホールドインデータセット、4つのホールドアウトデータセット、および2つのIn Context Learning設定のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-04-02T15:10:11Z) - EIGEN: Expert-Informed Joint Learning Aggregation for High-Fidelity
Information Extraction from Document Images [27.36816896426097]
レイアウトフォーマットの多様性が高いため,文書画像からの情報抽出は困難である。
本稿では,ルールベースの手法とデータプログラミングを用いたディープラーニングモデルを組み合わせた新しい手法であるEIGENを提案する。
我々のEIGENフレームワークは、ラベル付きデータインスタンスがほとんどない状態で、最先端のディープモデルの性能を大幅に向上させることができることを実証的に示しています。
論文 参考訳(メタデータ) (2023-11-23T13:20:42Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Automatic Context Pattern Generation for Entity Set Expansion [40.535332689515656]
我々は,エンティティの高品質なコンテキストパターンを自動的に生成するモジュールを開発する。
また、前述のGenerAted PAtternsを活用してターゲットエンティティを拡張するGAPAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-17T06:50:35Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。