Fugu-MT 論文翻訳(概要): EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization

論文の概要: EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization

arxiv url: http://arxiv.org/abs/2602.22368v1
Date: Wed, 25 Feb 2026 20:04:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.391509
Title: EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization
Title（参考訳）: EyeLayer: 人間の注意パターンをLCMベースのコード要約に統合する
Authors: Jiahao Zhang, Yifan Zhang, Kevin Leach, Yu Huang,
Abstract要約: EyeLayerは、人間の視線パターンを組み込んだ軽量の注意増進モジュールである。私たちはEyeLayerが標準メトリクス間で強い微調整ベースラインを一貫して上回っていることを示しています。
参考スコア（独自算出の注目度）: 15.602166020026045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code summarization is the task of generating natural language descriptions of source code, which is critical for software comprehension and maintenance. While large language models (LLMs) have achieved remarkable progress on this task, an open question remains: can human expertise in code understanding further guide and enhance these models? We propose EyeLayer, a lightweight attention-augmentation module that incorporates human eye-gaze patterns, as a proxy of human expertise, into LLM-based code summarization. EyeLayer models human attention during code reading via a Multimodal Gaussian Mixture, redistributing token embeddings based on learned parameters (μ_i, σ_i^2) that capture where and how intensively developers focus. This design enables learning generalizable attention priors from eye-tracking data and incorporating them into LLMs seamlessly, without disturbing existing representations. We evaluate EyeLayer across diverse model families (i.e., LLaMA-3.2, Qwen3, and CodeBERT) covering different scales and architectures. EyeLayer consistently outperforms strong fine-tuning baselines across standard metrics, achieving gains of up to 13.17% on BLEU-4. These results demonstrate that human gaze patterns encode complementary attention signals that enhance the semantic focus of LLMs and transfer effectively across diverse models for code summarization.
Abstract（参考訳）: コードの要約は、ソースコードの自然言語記述を生成するタスクであり、これはソフトウェアの理解と保守に不可欠である。大きな言語モデル(LLM)は、このタスクにおいて顕著な進歩を遂げていますが、オープンな疑問が残っています。人間の専門知識の代用として人間の視線パターンをLLMベースのコード要約に組み込んだ,軽量な注意強調モジュールであるEyeLayerを提案する。 EyeLayerは、マルチモーダルガウシアンミキチャーによるコード読み込み中の人間の注意をモデル化し、学習したパラメータ(μ_i, σ_i^2)に基づいてトークンの埋め込みを再配布する。この設計により、視線追跡データから一般化可能な事前注意を学習し、既存の表現を邪魔することなくLLMにシームレスに組み込むことができる。各種モデルファミリ(LLaMA-3.2,Qwen3,CodeBERT)におけるEyeLayerの評価を行った。 EyeLayerは標準の指標で常に優れた微調整ベースラインを上回り、BLEU-4では最大13.17%のゲインを達成している。これらの結果は、人間の視線パターンが、LLMの意味的焦点を高め、コード要約のための多様なモデル間で効果的に伝達する相補的な注意信号を符号化していることを示している。

関連論文リスト

Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions [18.455501447828343]
空間知能(SI)は視覚言語モデル(VLM)に大きく依存している画素レベルの入力を必要としない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであるSiT-Benchを紹介する。空間的推論により性能が著しく向上し,LLMには潜在的世界モデリングの可能性があることが示唆された。
論文参考訳（メタデータ） (2026-01-07T05:13:52Z)
VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文参考訳（メタデータ） (2025-08-13T17:00:44Z)
Analysis on LLMs Performance for Code Summarization [0.0]
大規模言語モデル(LLM)は、コード要約の分野を著しく進歩させてきた。本研究の目的は,LLaMA-3,Phi-3,Mistral,GemmaなどのオープンソースLLMの比較分析を行うことである。
論文参考訳（メタデータ） (2024-12-22T17:09:34Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。 ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳（メタデータ） (2024-08-28T17:59:31Z)
All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。 E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文参考訳（メタデータ） (2024-07-20T22:09:42Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-10-16T05:09:58Z)
Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文参考訳（メタデータ） (2023-09-27T06:33:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。