論文の概要: Evaluating Long Range Dependency Handling in Code Generation Models using Multi-Step Key Retrieval
- arxiv url: http://arxiv.org/abs/2407.21049v1
- Date: Tue, 23 Jul 2024 02:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:28:03.115660
- Title: Evaluating Long Range Dependency Handling in Code Generation Models using Multi-Step Key Retrieval
- Title(参考訳): マルチステップキー検索を用いたコード生成モデルにおける長距離依存性処理の評価
- Authors: Yannick Assogba, Donghao Ren,
- Abstract要約: コンテクストウィンドウ内の複数ステップのキー検索タスクを最大8kトークンまで長値化することで,複数のコード生成モデルが長距離依存を処理可能であることを解析する。
関数がプロンプトで後で定義される別の関数を参照すると、パフォーマンスは著しく低下する(最大2倍)。
また,スライディングウィンドウアテンション機構を用いたモデルでは,単一ウィンドウのサイズ以上の参照処理が困難であることも確認した。
- 参考スコア(独自算出の注目度): 3.1767625261233046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models support larger and larger context sizes, evaluating their ability to make effective use of that context becomes increasingly important. We analyze the ability of several code generation models to handle long range dependencies using a suite of multi-step key retrieval tasks in context windows up to 8k tokens in length. The tasks progressively increase in difficulty and allow more nuanced evaluation of model capabilities than tests like the popular needle-in-the-haystack test. We find that performance degrades significantly (up to 2x) when a function references another function that is defined later in the prompt. We also observe that models that use sliding window attention mechanisms have difficulty handling references further than the size of a single window. We perform simple prompt modifications using call graph information to improve multi-step retrieval performance up to 3x. Our analysis highlights different facets of long-context performance and is suggestive of prompt construction strategies for code completion tools
- Abstract(参考訳): 言語モデルがより大きなコンテキストサイズをサポートするようになると、そのコンテキストを効果的に活用する能力を評価することがますます重要になる。
コンテクストウィンドウ内の複数ステップのキー検索タスクを最大8kトークンまで長値化することで,複数のコード生成モデルが長距離依存を処理可能であることを解析する。
これらのタスクは、徐々に困難を増し、一般的なニードル・イン・ザ・ヘイスタックテストのようなテストよりも、モデル能力のニュアンスな評価を可能にします。
関数がプロンプトで後で定義される別の関数を参照すると、パフォーマンスは著しく低下する(最大2倍)。
また,スライディングウィンドウアテンション機構を用いたモデルでは,単一ウィンドウのサイズ以上の参照処理が困難であることも確認した。
コールグラフ情報を用いた簡易なプロンプト修正を行い,マルチステップ検索性能を最大3倍に向上する。
我々の分析では、長文性能の異なる側面を強調し、コード補完ツールの迅速な構築戦略を示唆している。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - Better Context Makes Better Code Language Models: A Case Study on
Function Call Argument Completion [15.068025336990287]
既存のコード補完モデルでは、完了タスクに良い結果が得られないことを示します。
与えられた関数呼び出しに関する情報をプログラムアナライザに問い合わせ、推論およびトレーニング中に異なるコード補完モデルに対してアナライザ結果を提供する方法を検討する。
実験の結果,関数の実装と関数の使用量へのアクセスは,引数補完性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-06-01T06:25:58Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。