論文の概要: Do LLMs Provide Links to Code Similar to what they Generate? A Study with Gemini and Bing CoPilot
- arxiv url: http://arxiv.org/abs/2501.12134v1
- Date: Tue, 21 Jan 2025 13:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:30.716650
- Title: Do LLMs Provide Links to Code Similar to what they Generate? A Study with Gemini and Bing CoPilot
- Title(参考訳): LLMは生成するものと同じようなコードへのリンクを提供するか? GeminiとBing CoPilotによる研究
- Authors: Daniele Bifolco, Pietro Cassieri, Giuseppe Scanniello, Massimiliano Di Penta, Fiorella Zampetti,
- Abstract要約: 大規模言語モデル(LLM)は現在、様々なソフトウェア開発タスクに使われている。
Webからの再利用とは異なり、LLMは生成されたコードに関する証明情報の提供に限られている。
本稿では,Bing CoPilot と Google Gemini のリンクから得られたと思われる6つのプログラミング言語で,243 と 194 のコードスニペットがどの程度の頻度で使われているかを評価する実験的な研究結果を示す。
- 参考スコア(独自算出の注目度): 7.056819594470789
- License:
- Abstract: Large Language Models (LLMs) are currently used for various software development tasks, including generating code snippets to solve specific problems. Unlike reuse from the Web, LLMs are limited in providing provenance information about the generated code, which may have important trustworthiness and legal consequences. While LLM-based assistants may provide external links that are "related" to the generated code, we do not know how relevant such links are. This paper presents the findings of an empirical study assessing the extent to which 243 and 194 code snippets, across six programming languages, generated by Bing CoPilot and Google Gemini, likely originate from the links provided by these two LLM-based assistants. The study leverages automated code similarity assessments with thorough manual analysis. The study's findings indicate that the LLM-based assistants provide a mix of relevant and irrelevant links having a different nature. Specifically, although 66% of the links from Bing CoPilot and 28% from Google Gemini are relevant, LLMs-based assistants still suffer from serious "provenance debt".
- Abstract(参考訳): 大規模言語モデル(LLM)は現在、特定の問題を解決するためにコードスニペットを生成するなど、様々なソフトウェア開発タスクに使用されている。
Webからの再利用とは異なり、LLMは生成したコードに関する証明情報の提供に限られており、これは重要な信頼性と法的結果をもたらす可能性がある。
LLMベースのアシスタントは、生成されたコードに"関連"した外部リンクを提供することができるが、そのようなリンクがどの程度関連しているかは分かっていない。
本稿では,Bing CoPilot と Google Gemini が生成する6つのプログラミング言語における 243 と 194 のコードスニペットが,これら 2 つの LLM ベースのアシスタントによって提供されるリンクに由来すると考えられる範囲について,実証的研究を行った。
この研究は、自動化されたコード類似度評価と詳細な手動分析を活用している。
研究の結果、LSMベースのアシスタントは、異なる性質を持つ関連性および無関係なリンクを混在させることが示唆された。
具体的には、Bing CoPilotのリンクの66%とGoogle Geminiの28%は関連性があるが、LLMベースのアシスタントは依然として深刻な「保証負債」に悩まされている。
関連論文リスト
- WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Using Large Language Models for Knowledge Engineering (LLMKE): A Case
Study on Wikidata [3.0199774504647583]
ISWC 2023 LM-KBC Challengeの文脈において,知識工学のタスクにLarge Language Models (LLMs) を用いることを検討する。
本課題では,Wikidata から抽出した対象と関係のペアについて,学習済みの LLM を用いて,関連オブジェクトを文字列形式で生成し,それぞれの Wikidata QID にリンクする。
論文 参考訳(メタデータ) (2023-09-15T15:51:14Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - Do Large Language Models Pay Similar Attention Like Human Programmers When Generating Code? [10.249771123421432]
我々は,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じタスク記述に係わるかどうかを検討する。
手動で211の間違ったコードスニペットを分析し、多くのコード生成エラーを説明するのに使える5つの注意パターンを見つけました。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2023-06-02T00:57:03Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。