論文の概要: EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization
- arxiv url: http://arxiv.org/abs/2602.22368v1
- Date: Wed, 25 Feb 2026 20:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.391509
- Title: EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization
- Title(参考訳): EyeLayer: 人間の注意パターンをLCMベースのコード要約に統合する
- Authors: Jiahao Zhang, Yifan Zhang, Kevin Leach, Yu Huang,
- Abstract要約: EyeLayerは、人間の視線パターンを組み込んだ軽量の注意増進モジュールである。
私たちはEyeLayerが標準メトリクス間で強い微調整ベースラインを一貫して上回っていることを示しています。
- 参考スコア(独自算出の注目度): 15.602166020026045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code summarization is the task of generating natural language descriptions of source code, which is critical for software comprehension and maintenance. While large language models (LLMs) have achieved remarkable progress on this task, an open question remains: can human expertise in code understanding further guide and enhance these models? We propose EyeLayer, a lightweight attention-augmentation module that incorporates human eye-gaze patterns, as a proxy of human expertise, into LLM-based code summarization. EyeLayer models human attention during code reading via a Multimodal Gaussian Mixture, redistributing token embeddings based on learned parameters (μ_i, σ_i^2) that capture where and how intensively developers focus. This design enables learning generalizable attention priors from eye-tracking data and incorporating them into LLMs seamlessly, without disturbing existing representations. We evaluate EyeLayer across diverse model families (i.e., LLaMA-3.2, Qwen3, and CodeBERT) covering different scales and architectures. EyeLayer consistently outperforms strong fine-tuning baselines across standard metrics, achieving gains of up to 13.17% on BLEU-4. These results demonstrate that human gaze patterns encode complementary attention signals that enhance the semantic focus of LLMs and transfer effectively across diverse models for code summarization.
- Abstract(参考訳): コードの要約は、ソースコードの自然言語記述を生成するタスクであり、これはソフトウェアの理解と保守に不可欠である。
大きな言語モデル(LLM)は、このタスクにおいて顕著な進歩を遂げていますが、オープンな疑問が残っています。
人間の専門知識の代用として人間の視線パターンをLLMベースのコード要約に組み込んだ,軽量な注意強調モジュールであるEyeLayerを提案する。
EyeLayerは、マルチモーダルガウシアンミキチャーによるコード読み込み中の人間の注意をモデル化し、学習したパラメータ(μ_i, σ_i^2)に基づいてトークンの埋め込みを再配布する。
この設計により、視線追跡データから一般化可能な事前注意を学習し、既存の表現を邪魔することなくLLMにシームレスに組み込むことができる。
各種モデルファミリ(LLaMA-3.2,Qwen3,CodeBERT)におけるEyeLayerの評価を行った。
EyeLayerは標準の指標で常に優れた微調整ベースラインを上回り、BLEU-4では最大13.17%のゲインを達成している。
これらの結果は、人間の視線パターンが、LLMの意味的焦点を高め、コード要約のための多様なモデル間で効果的に伝達する相補的な注意信号を符号化していることを示している。
関連論文リスト
- Analysis on LLMs Performance for Code Summarization [0.0]
大規模言語モデル(LLM)は、コード要約の分野を著しく進歩させてきた。
本研究の目的は,LLaMA-3,Phi-3,Mistral,GemmaなどのオープンソースLLMの比較分析を行うことである。
論文 参考訳(メタデータ) (2024-12-22T17:09:34Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。