論文の概要: EyeMulator: Improving Code Language Models by Mimicking Human Visual Attention
- arxiv url: http://arxiv.org/abs/2508.16771v1
- Date: Fri, 22 Aug 2025 20:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.171984
- Title: EyeMulator: Improving Code Language Models by Mimicking Human Visual Attention
- Title(参考訳): EyeMulator:人間の視覚的注意を和らげることで、コード言語モデルを改善する
- Authors: Yifan Zhang, Chen Huang, Yueke Zhang, Jiahao Zhang, Toby Jia-Jun Li, Collin McMillan, Kevin Leach, Yu Huang,
- Abstract要約: 我々は、様々なソフトウェア開発タスクのトレーニング中に、人間の視覚的注意を模倣するCodeLLMsを訓練するテクニックであるEyeMulatorを提案する。
ソフトウェアエンジニアリングタスクにおける視線追跡実験のデータセットから得られた人間の視覚的注意の観察から,これらの重みを抽出する。
評価の結果,EyeMulatorは,コード翻訳や補完,要約などのタスクにおいて,強力なLCMベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 27.11897727181663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code language models (so-called CodeLLMs) are now commonplace in software development. As a general rule, CodeLLMs are trained by dividing training examples into input tokens and then learn importance of those tokens in a process called machine attention. Machine attention is based solely on input token salience to output token examples during training. Human software developers are different, as humans intuitively know that some tokens are more salient than others. While intuition itself is ineffable and a subject of philosophy, clues about salience are present in human visual attention, since people tend to look at more salient words more often. In this paper, we present EyeMulator, a technique for training CodeLLMs to mimic human visual attention while training for various software development tasks. We add special weights for each token in each input example to the loss function used during LLM fine-tuning. We draw these weights from observations of human visual attention derived from a previously-collected publicly-available dataset of eye-tracking experiments in software engineering tasks. These new weights ultimately induce changes in the attention of the subject LLM during training, resulting in a model that does not need eye-tracking data during inference. Our evaluation shows that EyeMulator outperforms strong LLM baselines on several tasks such as code translation, completion and summarization. We further show an ablation study that demonstrates the improvement is due to subject models learning to mimic human attention.
- Abstract(参考訳): コード言語モデル(いわゆるCodeLLM)は、今やソフトウェア開発において一般的である。
一般的なルールとして、CodeLLMはトレーニング例を入力トークンに分割してトレーニングし、マシンアテンションと呼ばれるプロセスでそれらのトークンの重要性を学ぶ。
マシンの注意は、トレーニング中にトークンの例を出力するために入力トークンサリエンスのみに基づいています。
人間のソフトウェア開発者は、あるトークンが他のトークンよりもより健全であることを直感的に知っているため、異なる。
直観そのものは不適切で哲学の主題であるが、人々がより敬意的な言葉をよく見る傾向があるため、人間の視覚的注意の中にサリエンスに関する手がかりが存在する。
本稿では,CodeLLMsのトレーニング手法であるEyeMulatorについて述べる。
LLM微調整時に使用する損失関数に対して,各入力例に各トークンに特別な重みを加える。
ソフトウェアエンジニアリングタスクにおける視線追跡実験のデータセットから得られた人間の視覚的注意の観察から,これらの重みを抽出する。
これらの新たな重みは、トレーニング中の被検体LLMの注意の変化を招き、結果として推論中に視線追跡データを必要としないモデルとなる。
評価の結果,EyeMulatorは,コード翻訳や補完,要約などのタスクにおいて,強力なLCMベースラインよりも優れていた。
さらに,人間の注意を真似て学習する主観モデルによる改善効果を示すアブレーション研究を示す。
関連論文リスト
- Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Naturalness of Attention: Revisiting Attention in Code Language Models [3.756550107432323]
CodeBERTのようなコードの言語モデルは、高度なソースコード表現を学習する機能を提供するが、その不透明さは、取得したプロパティを理解する上で障壁となる。
本研究は、注意重みを超える注意機構のこれまで無視されていた要因について、いくつかの光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-11-22T16:34:12Z) - Multimodality and Attention Increase Alignment in Natural Language
Prediction Between Humans and Computational Models [0.8139163264824348]
人間は、次の単語の処理を容易にするために、視覚的手がかりのような健全なマルチモーダル機能を使用することが知られている。
マルチモーダル計算モデルは、視覚的注意機構を使用して視覚的および言語的データを統合して、次の単語の確率を割り当てることができる。
本研究では,人間からの予測可能性の推定値が,マルチモーダルモデルと非モーダルモデルとのスコアとより密に一致していることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:30:07Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - Follow-up Attention: An Empirical Study of Developer and Neural Model Code Exploration [6.060235526273212]
OpenAI CodexやAlphaCodeといった最近のコードニューラルモデルは、コード生成において顕著な習熟性を示している。
しかしながら、モデルが実際にどのようにコードを処理しているか、その理由や注意機構がどのようにコードをスキャンするかが開発者のパターンとどのように一致しているかは、よくわからない。
この研究は、CodeGen、InCoder、GPT-Jの3つのオープンな言語モデルの処理された注意信号が、開発者がどのようにコードを見て探索するかにどのように一致するかを研究する。
論文 参考訳(メタデータ) (2022-10-11T14:58:58Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。