論文の概要: Identifying a Circuit for Verb Conjugation in GPT-2
- arxiv url: http://arxiv.org/abs/2506.22105v1
- Date: Fri, 27 Jun 2025 10:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.176652
- Title: Identifying a Circuit for Verb Conjugation in GPT-2
- Title(参考訳): GPT-2における動詞共役回路の同定
- Authors: David Demitri Africa,
- Abstract要約: GPT-2 Smallのサブネットワークを分離・解釈する手法を実装した。
このモデルには、主題が特異(例えば「アリス」)か複数の(例えば「アリス」と「ボブ」)のいずれかである場合のプロンプトが与えられ、そのタスクは適切な動詞形式を正しく予測することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I implement a procedure to isolate and interpret the sub-network (or "circuit") responsible for subject-verb agreement in GPT-2 Small. In this study, the model is given prompts where the subject is either singular (e.g. "Alice") or plural (e.g. "Alice and Bob"), and the task is to correctly predict the appropriate verb form ("walks" for singular subjects, "walk" for plural subjects). Using a series of techniques-including performance verification automatic circuit discovery via direct path patching, and direct logit attribution- I isolate a candidate circuit that contributes significantly to the model's correct verb conjugation. The results suggest that only a small fraction of the network's component-token pairs is needed to achieve near-model performance on the base task but substantially more for more complex settings.
- Abstract(参考訳): GPT-2 Smallにおけるサブネットワーク(または「サーキット」)を分離・解釈する手法を実装した。
本研究では, 対象が単数(例えばアリスとボブ)か複数(例えばアリスとボブ)かのいずれかである場合, 特定の対象に対して適切な動詞形(「歩行」, 複数の対象に対して「歩行」)を正確に予測することが課題である。
直接経路パッチングによる性能検証自動回路発見,直接ロジット属性を含む一連の手法を用いて,モデルの正しい動詞共役に大きく寄与する候補回路を分離する。
この結果から,ネットワークのコンポーネント・ツー・ケントペアのごく一部のみが,ベースタスク上でのニアモデル性能を実現するのに必要だが,より複雑な設定を行うにははるかに重要であることが示唆された。
関連論文リスト
- Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - RedPenNet for Grammatical Error Correction: Outputs to Tokens,
Attentions to Spans [0.0]
RedPenNetは、Sequence-To-Editsモデルで提示されるアーキテクチャ上の冗長性とパラメトリックな冗長性を低減することを目的としている。
私たちのモデルはBEA 2019(テスト)で77.60ドルのF_0.5$スコアを獲得します。
本研究では,ウクライナ語の文法的誤り訂正問題に対処するためにRedPenNetアプローチを適用することを目的とする。
論文 参考訳(メタデータ) (2023-09-19T19:48:30Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun
Distillation [6.065546855174586]
現在の参照表現理解アルゴリズムは、名詞によって示されるオブジェクトを効果的に検出またはセグメント化することができるが、動詞の参照を理解する方法はまだ解明されていない。
本研究では, タスク指向検出の課題について検討し, 安らかに座るなど, 動詞によって示される行動に最も適する対象を見つけることを目的とした。
より詳細なローカライゼーションに向けて、タスク指向のインスタンスセグメンテーションに問題を拡張します。
論文 参考訳(メタデータ) (2022-10-19T17:59:56Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。