論文の概要: Does Editing Provide Evidence for Localization?
- arxiv url: http://arxiv.org/abs/2502.11447v2
- Date: Wed, 19 Feb 2025 06:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:12.151208
- Title: Does Editing Provide Evidence for Localization?
- Title(参考訳): 編集は、ローカライゼーションのためのエビデンスを提供するか?
- Authors: Zihao Wang, Victor Veitch,
- Abstract要約: 大規模言語モデルにおける解釈可能性研究の基本的な願望は、意味論的に意味のある振る舞いを「局所化」することである。
このような編集によって得られる証拠はどの程度強力か?
キーとなる新しい技術ツールは、LLMアライメント技術を適用して、そのような最適なローカライズされた編集を見つける方法である。
- 参考スコア(独自算出の注目度): 23.76373449886486
- License:
- Abstract: A basic aspiration for interpretability research in large language models is to "localize" semantically meaningful behaviors to particular components within the LLM. There are various heuristics for finding candidate locations within the LLM. Once a candidate localization is found, it can be assessed by editing the internal representations at the corresponding localization and checking whether this induces model behavior that is consistent with the semantic interpretation of the localization. The question we address here is: how strong is the evidence provided by such edits? To evaluate the localization claim, we want to assess the effect of the optimal intervention at a particular location. The key new technical tool is a way of adapting LLM alignment techniques to find such optimal localized edits. With this tool in hand, we give an example where the edit-based evidence for localization appears strong, but where localization clearly fails. Indeed, we find that optimal edits at random localizations can be as effective as aligning the full model. In aggregate, our results suggest that merely observing that localized edits induce targeted changes in behavior provides little to no evidence that these locations actually encode the target behavior.
- Abstract(参考訳): 大規模言語モデルにおける解釈可能性研究の基本的な願望は、LLM内の特定のコンポーネントに意味論的に意味のある振る舞いを「局所化」することである。
LLM内の候補地を見つけるための様々なヒューリスティックがある。
候補のローカライゼーションが見つかると、対応するローカライゼーションで内部表現を編集して、それがローカライゼーションのセマンティック解釈と整合したモデル行動を引き起こすかどうかを確認することで評価できる。
このような編集によって得られる証拠はどの程度強力か?
ローカライゼーション・クレームを評価するために,特定の場所における最適な介入の効果を評価する。
キーとなる新しい技術ツールは、LLMアライメント技術を適用して、そのような最適なローカライズされた編集を見つける方法である。
このツールを使って、編集に基づくローカライゼーションの証拠が強く見えるが、明らかにローカライゼーションが失敗する例を示す。
実際、ランダムな局所化における最適な編集は、完全なモデルを整列するのと同じくらい効果的であることがわかった。
以上の結果から,局所的な編集が標的行動の変化を誘発するのを単に観察するだけで,実際に対象行動がコード化されているという証拠がほとんど,あるいは全く得られないことが示唆された。
関連論文リスト
- Text-guided Zero-Shot Object Localization [37.90350919486988]
提案するフレームワークは,ラベル付きサンプルがない場合に,画像中の特定のオブジェクトを識別し,特定するための単語によってガイドすることができる。
実験結果から,提案手法は局所化性能を大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:03:11Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Editing Arbitrary Propositions in LLMs without Subject Labels [88.67755930096966]
GT(Gradient Tracing)と呼ばれるシンプルで高速なローカライゼーション手法を提案する。
GTは、単にバイナリではなく任意の命題を編集できる。
提案手法は, 対象ラベルにアクセスせずに, 対象ラベルを持つ最先端のL&E手法に近い動作を行うことを示す。
論文 参考訳(メタデータ) (2024-01-15T08:08:24Z) - Do Localization Methods Actually Localize Memorized Data in LLMs? A Tale of Two Benchmarks [28.46131289972691]
2つのベンチマークは、記憶データに責任があるコンポーネントをピンポイントするローカライズ手法の能力を評価する。
異なる視点にもかかわらず、我々の2つのベンチマークは5つのローカライゼーション手法の一貫性のあるランキングを得る。
論文 参考訳(メタデータ) (2023-11-15T15:52:40Z) - Does Localization Inform Editing? Surprising Differences in
Causality-Based Localization vs. Knowledge Editing in Language Models [68.03946716358335]
既存の方法と異なる位置にある重みを編集することで、その事実をモデルに格納する方法を変えることができる。
特定のモデルパラメータに事実をローカライズすることで、モデル内の知識を操作する場所がわかると期待しているからです。
我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。
論文 参考訳(メタデータ) (2023-01-10T21:26:08Z) - Change Detection for Local Explainability in Evolving Data Streams [72.4816340552763]
局所的特徴帰属法はポストホックやモデルに依存しない説明法として人気がある。
ローカルな属性が、ストリーミングやオンラインアプリケーションのような、現実的で絶えず変化する設定でどのように振る舞うかは、しばしば不明である。
局所変化と概念ドリフトを検出するフレキシブルでモデルに依存しないCDLEEDSを提案する。
論文 参考訳(メタデータ) (2022-09-06T18:38:34Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Object-Guided Day-Night Visual Localization in Urban Scenes [2.4493299476776778]
提案手法はまず意味オブジェクトを検出し,画像間の対応性を確立する。
標準的な都市局所化データセットの実験により,OGuLはSIFTと同様の簡易な局所的特徴を持つ局所化結果を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-02-09T13:21:30Z) - A Fault Localization and Debugging Support Framework driven by Bug
Tracking Data [0.11915976684257382]
この論文は、さまざまなソースからのデータを組み合わせることで、フォールトローカリゼーションフレームワークを提供することを目指しています。
これを実現するために,バグ分類スキーマを導入し,ベンチマークを作成し,履歴データに基づく新しいフォールトローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。