論文の概要: Is Model Attention Aligned with Human Attention? An Empirical Study on
Large Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2306.01220v1
- Date: Fri, 2 Jun 2023 00:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:13:15.269353
- Title: Is Model Attention Aligned with Human Attention? An Empirical Study on
Large Language Models for Code Generation
- Title(参考訳): モデル注意は人間の注意に相応しいか?
コード生成のための大規模言語モデルに関する実証的研究
- Authors: Bonan Kou, Shengmai Chen, Zhijie Wang, Lei Ma, Tianyi Zhang
- Abstract要約: 本稿では,Large Language Models (LLMs) が,コード生成中に人間のプログラマと同じ自然言語記述に関わっているかを検討する。
LLMのコード生成精度と人間のプログラマとの整合性には相関がないことがわかった。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 9.411002482110957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been demonstrated effective for code
generation. Due to the complexity and opacity of LLMs, little is known about
how these models generate code. To deepen our understanding, we investigate
whether LLMs attend to the same parts of a natural language description as
human programmers during code generation. An analysis of five LLMs on a popular
benchmark, HumanEval, revealed a consistent misalignment between LLMs' and
programmers' attention. Furthermore, we found that there is no correlation
between the code generation accuracy of LLMs and their alignment with human
programmers. Through a quantitative experiment and a user study, we confirmed
that, among twelve different attention computation methods, attention computed
by the perturbation-based method is most aligned with human attention and is
constantly favored by human programmers. Our findings highlight the need for
human-aligned LLMs for better interpretability and programmer trust.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成に有効であることが証明されている。
LLMの複雑さと不透明さのため、これらのモデルがどのようにコードを生成するかについてはほとんど分かっていない。
我々の理解を深めるために,LLM がコード生成中に人間のプログラマと同じ言語記述に参加するかどうかを検討する。
人気のあるベンチマークであるHumanEvalで5つのLLMの分析を行った結果、LLMとプログラマの注意が一貫した不一致が明らかになった。
さらに,LLMのコード生成精度と人間のプログラマとの整合性には相関性がないことがわかった。
定量的実験とユーザスタディにより,12種類の注意計算手法のうち,摂動法で計算した注意が人間の注意に最も適しており,常に人間のプログラマに好まれていることが確認された。
この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が示唆された。
関連論文リスト
- Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers [44.28269395385471]
大規模言語モデル(LLM)を用いたコーディングにおいて,既存のベンチマークのゲインがプログラマの生産性向上に寄与するかどうかを検討する。
本稿では,プログラマを支援するためのLLMの能力を測定するためのWebインターフェースであるRealHumanEvalについて,オートコンプリートあるいはチャットサポートを通じて紹介する。
プログラマの好みは実際のパフォーマンスと相関せず、より優れた人間中心のプロキシ信号の必要性を動機付けている。
論文 参考訳(メタデータ) (2024-04-03T15:20:57Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Do Large Language Models Mirror Cognitive Language Processing? [47.72734808139112]
大規模言語モデル(LLM)は、テキスト理解と論理的推論において顕著な能力を示した。
本研究では,LLM表現と人間の認知信号をブリッジして,LLMが認知言語処理をいかに効果的にシミュレートするかを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T03:38:20Z) - An Empirical Study on Usage and Perceptions of LLMs in a Software
Engineering Project [1.433758865948252]
大規模言語モデル(LLM)は人工知能の飛躍であり、人間の言語を用いたタスクに優れる。
本稿では、AI生成したコードを分析し、コード生成に使用するプロンプトと人間の介入レベルを分析し、コードをコードベースに統合する。
ソフトウェア開発の初期段階において,LSMが重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2024-01-29T14:32:32Z) - Human-Instruction-Free LLM Self-Alignment with Limited Samples [64.69906311787055]
本研究では,人間の関与なしに,大規模言語モデル(LLM)を反復的に自己調整するアルゴリズムを提案する。
既存の研究と異なり、我々のアルゴリズムは人造指示にも報酬にも依存せず、人間の関与を著しく減らしている。
提案手法は,LLMの自己一般化能力を解き明かし,ほぼゼロに近い人的監督と整合性を持たせることができることを示す。
論文 参考訳(メタデータ) (2024-01-06T14:00:12Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。