Fugu-MT 論文翻訳(概要): Looking into Black Box Code Language Models

論文の概要: Looking into Black Box Code Language Models

arxiv url: http://arxiv.org/abs/2407.04868v1
Date: Fri, 5 Jul 2024 21:13:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 22:16:57.714530
Title: Looking into Black Box Code Language Models
Title（参考訳）: Black Boxのコード言語モデル
Authors: Muhammad Umair Haider, Umar Farooq, A. B. Siddique, Mark Marron,
Abstract要約: 私たちは、最先端の2つのコードLM、Codegen-MonoとPloycoderを使用し、Java、Go、Pythonの3つの広く使われているプログラミング言語を使用します。 CodeLMの性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。
参考スコア（独自算出の注目度）: 2.5324062203985935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language Models (LMs) have shown their application for tasks pertinent to code and several code~LMs have been proposed recently. The majority of the studies in this direction only focus on the improvements in performance of the LMs on different benchmarks, whereas LMs are considered black boxes. Besides this, a handful of works attempt to understand the role of attention layers in the code~LMs. Nonetheless, feed-forward layers remain under-explored which consist of two-thirds of a typical transformer model's parameters. In this work, we attempt to gain insights into the inner workings of code language models by examining the feed-forward layers. To conduct our investigations, we use two state-of-the-art code~LMs, Codegen-Mono and Ploycoder, and three widely used programming languages, Java, Go, and Python. We focus on examining the organization of stored concepts, the editability of these concepts, and the roles of different layers and input context size variations for output generation. Our empirical findings demonstrate that lower layers capture syntactic patterns while higher layers encode abstract concepts and semantics. We show concepts of interest can be edited within feed-forward layers without compromising code~LM performance. Additionally, we observe initial layers serve as ``thinking'' layers, while later layers are crucial for predicting subsequent code tokens. Furthermore, we discover earlier layers can accurately predict smaller contexts, but larger contexts need critical later layers' contributions. We anticipate these findings will facilitate better understanding, debugging, and testing of code~LMs.
Abstract（参考訳）: 言語モデル(LM)は、コードに関連するタスクのアプリケーションを示しており、最近いくつかのコード〜LMが提案されている。この方向のほとんどの研究は、異なるベンチマーク上でのLMの性能改善にのみ焦点をあてているが、LMはブラックボックスと見なされている。これに加えて、コード～LMにおける注意層の役割を理解しようとする研究もいくつかある。それにもかかわらず、フィードフォワード層は、典型的なトランスフォーマーモデルのパラメータの3分の2からなる未探索層のままである。本研究では、フィードフォワード層を調べることで、コード言語モデルの内部動作に関する洞察を得ようと試みる。調査には、最先端のコード~LM、Codegen-Mono、Ploycoderの2つと、広く使われているJava、Go、Pythonの3つのプログラミング言語を使用します。本稿では,記憶された概念の整理,それらの概念の編集可能性,異なるレイヤの役割,および出力生成のための入力コンテキストサイズの変化について検討する。実験により,下位層が構文パターンをキャプチャし,上位層が抽象概念と意味論をエンコードしていることが判明した。我々は、コード〜LM性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。さらに、最初のレイヤが‘考え’レイヤとして機能するのに対して、後続のレイヤはその後のコードトークンを予測する上で不可欠であることも観察しています。さらに、初期のレイヤは、より小さなコンテキストを正確に予測できるが、より大きなコンテキストは、後のレイヤの重要なコントリビューションを必要としている。これらの発見が,コード～LMの理解,デバッグ,テストを容易にすることを期待する。

関連論文リスト

Direct Multi-Token Decoding [24.347862297812977]
我々は,大規模言語モデル(LLM)の推論パラダイムとして,DMTD(Direct Multi-Token Decoding)を導入する。投機的復号法とは異なり,提案手法では追加パラメータや補助ルーチンやポストジェネレーション検証は導入されない。微調整のDMTD Qwen3-4Bモデルはすでに有望な結果を示しており、2倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-10-13T21:42:37Z)
Training-Free Reasoning and Reflection in MLLMs [45.134271969594614]
本稿では,FRANKモデルについて紹介する。FRANKモデルとは,既製のMLLMに推論とリフレクションを付与したトレーニングフレームANd r1-liKe MLLMである。私たちの重要な洞察は、MLLMデコーダ層間の認識と推論を分離することです。そこで本研究では, 深いデコーダ層に推論能力を統合する, テイラー型閉形式融合機構を提案する。
論文参考訳（メタデータ） (2025-05-22T02:51:12Z)
Rethinking Visual Layer Selection in Multimodal LLMs [46.091556112958884]
この研究は、浅い、中、深いカテゴリに類似した振る舞いを持つグループCLIP-ViT層に対するレイヤワイズ類似性アプローチを提案する。大規模MLLMにおける視覚層選択問題を再考し,1.4Bから7BまでのLLaVAスタイルのモデルを訓練する。 1) 深層はOCRタスクに必須であり,(2) 浅層と中層はカウント,位置決め,オブジェクトの局所化を含む推論タスクにおいて実質的に深層を上回り,(3) 浅層,中層,深層をまたいだ軽量な融合は,専門的な融合ベースラインと単一層を一貫して上回ります。
論文参考訳（メタデータ） (2025-04-30T09:07:10Z)
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers [70.38258823378557]
MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。本稿では,レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤ貢献(LC)を紹介する。 LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案する。
論文参考訳（メタデータ） (2025-04-01T07:47:55Z)
Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。本フレームワークでは,各モデル層が情報圧縮と信号保存のバランスをとる方法を強調している。これらの知見は、最終層埋め込みに標準的焦点をあて、モデル解析と最適化のための新しい方向を開くことに挑戦する。
論文参考訳（メタデータ） (2025-02-04T05:03:42Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文参考訳（メタデータ） (2024-06-21T17:37:10Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文参考訳（メタデータ） (2024-04-14T19:45:35Z)
Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。我々は、より複雑な概念が一般的により深い層で取得されることを示すために、概念深さの概念を紹介します。
論文参考訳（メタデータ） (2024-04-10T14:56:40Z)
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T17:04:18Z)
Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文参考訳（メタデータ） (2024-03-03T13:14:47Z)
How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。探索データセットの構築にはChatGPTの強力な生成能力を活用する。矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文参考訳（メタデータ） (2024-02-25T11:15:42Z)
Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文参考訳（メタデータ） (2023-10-19T17:59:05Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。